Revista Informática

Pandas: Iterar sobre las columnas de un DataFrame

Publicado el 02 septiembre 2021 por Daniel Rodríguez @analyticslane
Pandas: Iterar sobre las columnas de un DataFrame

Normalmente al trabajar con objetos DataFrame de Pandas se itera sobre las filas, ya que lo habitual es que estas representen los registros. Aun así, en ciertas ocasiones es posible que sea necesario iterar sobre las columnas de un DataFrame, por lo que en esta entrada se mostrarán algunas de las formas que existen para realizar esta tarea.

Conjunto de datos de Ejemplo

Para ver el funcionamiento de este proceso se usará el conjunto de ejemplo de usuarios que se ha utilizado en otras ocasiones. Un conjunto de datos que se puede crear con el siguiente código.

import pandas as pd

users = {'first_name': ['Montgomery', 'Dagmar', 'Reeba', 'Shalom', 'Broddy', 'Aurelia'],
         'last_name': ['Humes', 'Elstow', 'Wattisham', 'Alen', 'Keningham', 'Brechin'],
         'age': [27, 41, 29, 29, 21, 33],
         'gender': ['Male', 'Female', 'Female', 'Male', 'Male', 'Female']}

df = pd.DataFrame(users)
   first_name  last_name  age  gender
0  Montgomery      Humes   27    Male
1      Dagmar     Elstow   41  Female
2       Reeba  Wattisham   29  Female
3      Shalom       Alen   29    Male
4      Broddy  Keningham   21    Male
5     Aurelia    Brechin   33  Female

Iterar sobre las columnas usando los índices

Quizás la primera idea para iterar sobre las columnas de un DataFrame de Pandas es iterar mediante usando los índices e iloc[]. Para esto solamente se tiene que obtener el número de columnas del objeto, por ejemplo, mediante el uso de la propiedad shape, y recorrer estos mediante un bucle for. Algo como lo que se muestra en el siguiente pedazo de código.

for index in range(df.shape[1]):
    print('Índice de la columna: ', index)
    print('Contenido de la columna: ', df.iloc[: , index].values)
Índice de la columna:  0
Contenido de la columna:  ['Montgomery' 'Dagmar' 'Reeba' 'Shalom' 'Broddy' 'Aurelia']
Índice de la columna:  1
Contenido de la columna:  ['Humes' 'Elstow' 'Wattisham' 'Alen' 'Keningham' 'Brechin']
Índice de la columna:  2
Contenido de la columna:  [27 41 29 29 21 33]
Índice de la columna:  3
Contenido de la columna:  ['Male' 'Female' 'Female' 'Male' 'Male' 'Female']

En este caso en cada iteración solamente se dispone de la variable index en la que se guarda el valor del índice mediante el cual se puede obtener el contenido de cada una de las columnas.

Iterar sobre el nombre de las columnas

Otra opción es iterar sobre el propio DataFrame, lo que devuelve en cada una de las iteraciones el nombre de una columna. Así para acceder al contenido se puede usar directamente el nombre de estos sin la necesidad de usar iloc[] como en el caso anterior.

for column in df:
    print('Nombre de la columna: ', column)
    print('Contenido de la columna: ', df[column].values)
Nombre de la columna:  first_name
Contenido de la columna:  ['Montgomery' 'Dagmar' 'Reeba' 'Shalom' 'Broddy' 'Aurelia']
Nombre de la columna:  last_name
Contenido de la columna:  ['Humes' 'Elstow' 'Wattisham' 'Alen' 'Keningham' 'Brechin']
Nombre de la columna:  age
Contenido de la columna:  [27 41 29 29 21 33]
Nombre de la columna:  gender
Contenido de la columna:  ['Male' 'Female' 'Female' 'Male' 'Male' 'Female']

El método iteritems()

En los dos ejemplos que se han visto hasta ahora se disponía en cada una de las iteraciones del índice o el nombre de las columnas, siendo necesario acceder posteriormente al contenido. Pero, en los objetos DataFrames, existe el método iterable iteritems() con el cual se puede obtener directamente el nombre de la etiqueta y el contenido. Algo que nos facilita el acceso al contenido de cada una de las columnas de una forma más sencilla, tal como se muestra a continuación.

for (label, content) in df.iteritems():
    print('Nombre de la columna: ', label)
    print('Contenido de la columna: ', content.values)
Nombre de la columna:  first_name
Contenido de la columna:  ['Montgomery' 'Dagmar' 'Reeba' 'Shalom' 'Broddy' 'Aurelia']
Nombre de la columna:  last_name
Contenido de la columna:  ['Humes' 'Elstow' 'Wattisham' 'Alen' 'Keningham' 'Brechin']
Nombre de la columna:  age
Contenido de la columna:  [27 41 29 29 21 33]
Nombre de la columna:  gender
Contenido de la columna:  ['Male' 'Female' 'Female' 'Male' 'Male' 'Female']

Iterar en orden inverso

También es posible integrar en orden inverso, para lo que solamente se tienen usar reversed() sobre la lista con los elementos. Por ejemplo, para invertir los datos al iterar mediante los índices de las columnas.

for index in reversed(range(df.shape[1])):
    print('Índice de la columna: ', index)
    print('Contenido de la columna: ', df.iloc[: , index].values)
Índice de la columna:  3
Contenido de la columna:  ['Male' 'Female' 'Female' 'Male' 'Male' 'Female']
Índice de la columna:  2
Contenido de la columna:  [27 41 29 29 21 33]
Índice de la columna:  1
Contenido de la columna:  ['Humes' 'Elstow' 'Wattisham' 'Alen' 'Keningham' 'Brechin']
Índice de la columna:  0
Contenido de la columna:  ['Montgomery' 'Dagmar' 'Reeba' 'Shalom' 'Broddy' 'Aurelia']

Iterar solamente sobre las columnas que cumpla alguna condición

Finalmente, también es posible iterar solamente sobre un subconjunto de las columnas que cumplan alguna condición. Algo que es posible implementar fácilmente mediante una lista por comprensión. Por ejemplo, para seleccionar las columnas que tengan en su nombre la cadena name solamente se tiene que extraer el nombre de todas las columnas y filtrar las que verifiquen la condición.

for column in [col for col in df.columns if col.find("name") > 0]:
    print('Nombre de la columna: ', column)
    print('Contenido de la columna: ', df[column].values)
Nombre de la columna:  first_name
Contenido de la columna:  ['Montgomery' 'Dagmar' 'Reeba' 'Shalom' 'Broddy' 'Aurelia']
Nombre de la columna:  last_name
Contenido de la columna:  ['Humes' 'Elstow' 'Wattisham' 'Alen' 'Keningham' 'Brechin']

Un filtro que se puede hacer todo lo complejo que sea necesario.

Conclusiones

En esta entrada se han mostrado cinco formas diferentes para iterar sobre las columnas de un DataFrame. Los cuales pueden ser de utilidad en diferentes contextos adaptándose a las necesidades específicas de cada caso.


Volver a la Portada de Logo Paperblog