Revista Informática

Seleccionar filas y columnas en Pandas con iloc y loc

Publicado el 21 junio 2019 por Daniel Rodríguez @analyticslane

En los DataFrames de Pandas existen diferentes formas de seleccionar los registros de las filas y columnas. Siendo dos de las más importantes iloc y loc. La primera permite seleccionar los elementos en base a la posición, mientras que la segunda permite seleccionar mediante etiquetas o declaraciones condicionales. Esta entrada en un tutorial en el que se explicaran los fundamentos para seleccionar filas y columnas en Pandas con iloc y loc.

Los objetos DataFrame de Pandas

Los objetos DataFrame de Pandas son una estructura de datos de alto rendimiento con la que es posible manejar fácilmente datos tabulares para el análisis de datos. En estos objetos cada una de las filas representa un registro. Mientras que en cada una de las columnas representan variables, a las que generalmente se les asigna un nombre. Siendo una tarea habitual seleccionar de forma rápida tanto filas como columnas.

En este tutorial se va a utilizar el conjunto de datos de tips que se pueden encontrar en el paquete seaborn. La importación de los datos se puede realizar mediante el siguiente código.

from seaborn import load_dataset

df = load_dataset("tips")
df.head()
   total_bill   tip     sex smoker  day    time  size
0       16.99  1.01  Female     No  Sun  Dinner     2
1       10.34  1.66    Male     No  Sun  Dinner     3
2       21.01  3.50    Male     No  Sun  Dinner     3
3       23.68  3.31    Male     No  Sun  Dinner     2
4       24.59  3.61  Female     No  Sun  Dinner     4

Seleccionar filas y columnas en Pandas mediante posición con iloc

El método iloc se utiliza en los DataFrames para seleccionar los elementos en base a su ubicación. Su sintaxis es data.iloc[<filas>, <columnas>], donde <filas> y <columnas> son la posición de las filas y columnas que se desean seleccionar en el orden que aparecen en el objeto. Una notación familiar para los usuarios de Matlab. En un DataFrame cada una de las filas tiene un número que va desde 0 hasta el total de filas menos uno. Siendo iloc el método que permite seleccionar los datos en base a estos números. Lo mismo que aplica a las columnas.

En iloc hay dos argumentos filas y columnas. En caso de que se omita el segundo, se seleccionarán todas las columnas de la fila. Así para seleccionar diferentes filas se puede utilizar.

df.iloc[0] # Primera fila
df.iloc[1] # Segunda fila
df.iloc[-1] # Última fila

Nótese como el uso de valores negativos permite acceder a la última posición sin necesidad de conocer el tamaño del conjunto de datos. Por otro lado, para seleccionar una columna se tiene que utilizar : como primer parámetro, lo que indica todos, y el índice de esta como segundo. Así se puede hacer

df.iloc[:, 0] # Primera columna
df.iloc[:, 1] # Segunda columna
df.iloc[:, -1] # Última columna

Selección múltiple de filas o columnas mediante posición con iloc

En muchas ocasiones se puede desear seleccionar un conjunto de filas o columnas en lugar de una sola. Para ello se puede utilizar un vector con el listado en lugar de un escalar. Imprimiendo las filas o columnas en el orden indicado, por lo que se puede utilizar esto para reordenar los elementos de un DataFrame.

df.iloc[0:5] # Primeras cinco filas
df.iloc[:, 0:5] # Primeras cinco columnas
df.iloc[[0,2,1]]  # Primera, tercera y segunda filas
df.iloc[:, [0,2,1]]  # Primera, tercera y segunda columnas

Consideraciones al utilizar iloc

Es importante tener en cuenta que iloc devuelve una Serie Pandas cuando se selecciona una fila y un DataFrame cuando se selecciona varias. En el caso que sea necesario seleccionar un DataFrame con una única columna es necesario pasar una lista con la columna, no un escalar.

Por otro lado, al seleccionar varias filas o columnas con inicio:fin es necesario recordar que los valores ira desde el principio hasta el final menos uno. Por ejemplo, iloc[1:3] solamente seleccionara la segunda y tercera fila, 1 y 3. Teniendo en cuenta además que los índices en Python comienzan en 0, no en 1 como es el caso de R o Matlab.

Seleccionar filas y columnas en Pandas en base a etiquetas con loc

El método loc se puede usar de dos formas diferentes: seleccionar filas o columnas en base a una etiqueta o seleccionar filas o columnas en base a una condición.

Seleccionar filas o columnas en base a su etiqueta con loc

En el ejemplo importado las filas tienen como etiquete el número de fila. Por lo que el uso de loc parece similar al de iloc para las filas, aunque tiene algunas diferencias. Por ejemplo, si se han seleccionado las filas del 1 al 4 y se carga el resultado en un nuevo DataFrame a la hora de acceder a la fila 1 con loc se tendrá la primera del nuevo objeto mientras que iloc devolverá la segunda. Esto es así porque los índices se conservan, pero no las posiciones.

df_sub = df.loc[1:5]
df_sub.loc[1]
total_bill     10.34
tip             1.66
sex             Male
smoker            No
day              Sun
time          Dinner
size               3
Name: 1, dtype: object
df_sub.iloc[1]
total_bill     21.01
tip              3.5
sex             Male
smoker            No
day              Sun
time          Dinner
size               3
Name: 2, dtype: object

En el caso de las columnas se nota más la diferencia ya que se puede acceder a ellas por nombre, tanto sea una como varias

df.loc[:, 'tip'] # Columna tip
df.loc[:, ['tip', 'sex', 'day']] # Columnas tip, sex y day

Seleccionar filas o columnas en base a una condición con loc

Quizás esta sea una de las opciones más interesantes de las vistas, ya que permite seleccionar los datos en un DataFrame en base condiciones lógicas. Las cuales se pueden obtener a partir de los valores. Por ejemplo, se puede seleccionar fácilmente los registros correspondientes reservas realizadas por hombres:

is_male = df.loc[:, 'sex'] == 'Male'
df_male = df.loc[is_male]
df_male.head()
   total_bill   tip   sex smoker  day    time  size
1       10.34  1.66  Male     No  Sun  Dinner     3
2       21.01  3.50  Male     No  Sun  Dinner     3
3       23.68  3.31  Male     No  Sun  Dinner     2
5       25.29  4.71  Male     No  Sun  Dinner     4
6        8.77  2.00  Male     No  Sun  Dinner     2

En este ejemplo se puede ver que primero se ha seleccionado la columna sex y comprobado cuando esta tiene el valor Male. Lo que produce un objeto Serie únicamente con valores verdaderos o falsos. Esta serie es la que posteriormente se utiliza para seleccionar los registros que se cargar en el nuevo DataFrame. Los dos pasos aquí vistos se pueden escribir en una única línea.

df.loc[df.loc[:, 'sex'] == 'Male']

Conclusiones

En esta entrada se han visto los diferentes métodos disponibles para seleccionar filas y columnas en Pandas. En primer lugar, el método iloc mediante el cual se pueden seleccionar los elementos en base a su ubicación. En segundo lugar, el método loc con el que seleccionar filas o columnas en base a una etiqueta o seleccionar filas o columnas en base a una condición. Ambos métodos permiten seleccionar más de una fila o columna a la vez, lo que los hace altamente productivos. Además, poder utilizar condiciones lógicas en loc permite filtrar los datos.

Imágenes: Pixabay (PublicDomainPictures)

No te olvides valorar esta entrada

Suscríbete a nuestro boletín

Suscríbete al boletín semanal para estar al día de todas las publicaciones de Analytics Lane.

Contenido relacionado


Volver a la Portada de Logo Paperblog