Normalmente al trabajar con objetos DataFrame de Pandas se itera sobre las filas, ya que lo habitual es que estas representen los registros. Aun así, en ciertas ocasiones es posible que sea necesario iterar sobre las columnas de un DataFrame, por lo que en esta entrada se mostrarán algunas de las formas que existen para realizar esta tarea.
Conjunto de datos de Ejemplo
Para ver el funcionamiento de este proceso se usará el conjunto de ejemplo de usuarios que se ha utilizado en otras ocasiones. Un conjunto de datos que se puede crear con el siguiente código.
import pandas as pd users = {'first_name': ['Montgomery', 'Dagmar', 'Reeba', 'Shalom', 'Broddy', 'Aurelia'], 'last_name': ['Humes', 'Elstow', 'Wattisham', 'Alen', 'Keningham', 'Brechin'], 'age': [27, 41, 29, 29, 21, 33], 'gender': ['Male', 'Female', 'Female', 'Male', 'Male', 'Female']} df = pd.DataFrame(users)
first_name last_name age gender 0 Montgomery Humes 27 Male 1 Dagmar Elstow 41 Female 2 Reeba Wattisham 29 Female 3 Shalom Alen 29 Male 4 Broddy Keningham 21 Male 5 Aurelia Brechin 33 Female
Iterar sobre las columnas usando los índices
Quizás la primera idea para iterar sobre las columnas de un DataFrame de Pandas es iterar mediante usando los índices e iloc[]
. Para esto solamente se tiene que obtener el número de columnas del objeto, por ejemplo, mediante el uso de la propiedad shape
, y recorrer estos mediante un bucle for
. Algo como lo que se muestra en el siguiente pedazo de código.
for index in range(df.shape[1]): print('Índice de la columna: ', index) print('Contenido de la columna: ', df.iloc[: , index].values)
Índice de la columna: 0 Contenido de la columna: ['Montgomery' 'Dagmar' 'Reeba' 'Shalom' 'Broddy' 'Aurelia'] Índice de la columna: 1 Contenido de la columna: ['Humes' 'Elstow' 'Wattisham' 'Alen' 'Keningham' 'Brechin'] Índice de la columna: 2 Contenido de la columna: [27 41 29 29 21 33] Índice de la columna: 3 Contenido de la columna: ['Male' 'Female' 'Female' 'Male' 'Male' 'Female']
En este caso en cada iteración solamente se dispone de la variable index
en la que se guarda el valor del índice mediante el cual se puede obtener el contenido de cada una de las columnas.
Iterar sobre el nombre de las columnas
Otra opción es iterar sobre el propio DataFrame, lo que devuelve en cada una de las iteraciones el nombre de una columna. Así para acceder al contenido se puede usar directamente el nombre de estos sin la necesidad de usar iloc[]
como en el caso anterior.
for column in df: print('Nombre de la columna: ', column) print('Contenido de la columna: ', df[column].values)
Nombre de la columna: first_name Contenido de la columna: ['Montgomery' 'Dagmar' 'Reeba' 'Shalom' 'Broddy' 'Aurelia'] Nombre de la columna: last_name Contenido de la columna: ['Humes' 'Elstow' 'Wattisham' 'Alen' 'Keningham' 'Brechin'] Nombre de la columna: age Contenido de la columna: [27 41 29 29 21 33] Nombre de la columna: gender Contenido de la columna: ['Male' 'Female' 'Female' 'Male' 'Male' 'Female']
El método iteritems()
En los dos ejemplos que se han visto hasta ahora se disponía en cada una de las iteraciones del índice o el nombre de las columnas, siendo necesario acceder posteriormente al contenido. Pero, en los objetos DataFrames, existe el método iterable iteritems()
con el cual se puede obtener directamente el nombre de la etiqueta y el contenido. Algo que nos facilita el acceso al contenido de cada una de las columnas de una forma más sencilla, tal como se muestra a continuación.
for (label, content) in df.iteritems(): print('Nombre de la columna: ', label) print('Contenido de la columna: ', content.values)
Nombre de la columna: first_name Contenido de la columna: ['Montgomery' 'Dagmar' 'Reeba' 'Shalom' 'Broddy' 'Aurelia'] Nombre de la columna: last_name Contenido de la columna: ['Humes' 'Elstow' 'Wattisham' 'Alen' 'Keningham' 'Brechin'] Nombre de la columna: age Contenido de la columna: [27 41 29 29 21 33] Nombre de la columna: gender Contenido de la columna: ['Male' 'Female' 'Female' 'Male' 'Male' 'Female']
Iterar en orden inverso
También es posible integrar en orden inverso, para lo que solamente se tienen usar reversed()
sobre la lista con los elementos. Por ejemplo, para invertir los datos al iterar mediante los índices de las columnas.
for index in reversed(range(df.shape[1])): print('Índice de la columna: ', index) print('Contenido de la columna: ', df.iloc[: , index].values)
Índice de la columna: 3 Contenido de la columna: ['Male' 'Female' 'Female' 'Male' 'Male' 'Female'] Índice de la columna: 2 Contenido de la columna: [27 41 29 29 21 33] Índice de la columna: 1 Contenido de la columna: ['Humes' 'Elstow' 'Wattisham' 'Alen' 'Keningham' 'Brechin'] Índice de la columna: 0 Contenido de la columna: ['Montgomery' 'Dagmar' 'Reeba' 'Shalom' 'Broddy' 'Aurelia']
Iterar solamente sobre las columnas que cumpla alguna condición
Finalmente, también es posible iterar solamente sobre un subconjunto de las columnas que cumplan alguna condición. Algo que es posible implementar fácilmente mediante una lista por comprensión. Por ejemplo, para seleccionar las columnas que tengan en su nombre la cadena name
solamente se tiene que extraer el nombre de todas las columnas y filtrar las que verifiquen la condición.
for column in [col for col in df.columns if col.find("name") > 0]: print('Nombre de la columna: ', column) print('Contenido de la columna: ', df[column].values)
Nombre de la columna: first_name Contenido de la columna: ['Montgomery' 'Dagmar' 'Reeba' 'Shalom' 'Broddy' 'Aurelia'] Nombre de la columna: last_name Contenido de la columna: ['Humes' 'Elstow' 'Wattisham' 'Alen' 'Keningham' 'Brechin']
Un filtro que se puede hacer todo lo complejo que sea necesario.
Conclusiones
En esta entrada se han mostrado cinco formas diferentes para iterar sobre las columnas de un DataFrame. Los cuales pueden ser de utilidad en diferentes contextos adaptándose a las necesidades específicas de cada caso.