¿Cómo eliminar columnas o filas multi-índice en un dataframe de Pandas?

Publicado el 20 septiembre 2021 por Daniel Rodríguez @analyticslane

Los dataframes de Pandas ofrecen la posibilidad de emplear múltiples índices para etiquetar los datos almacenados. Algo que se puede usar tanto para las columnas como para las filas, permitiendo organizar así ciertos tipos de datos de una forma mucho más eficiente. Ya que es posible seleccionar los diferentes valores en base a los diferentes niveles de los índices. Para eliminar columnas o filas multi-índice en un dataframe se puede usar el método drop(), al igual que con los índices estándar. Aunque es necesario tener en cuenta algunas consideraciones adicionales.

Creación de un conjunto de datos

Como es habitual, antes de estudiar el funcionamiento del método drop() en dataframes multi-índice es necesario crear uno, para lo que se puede usar el siguiente código.

import pandas as pd
import numpy as np

data = np.reshape(np.arange(1, 37), (6, 6))
cols = pd.MultiIndex.from_tuples([("A", "C1"), ("A", "C2"), ("B", "C1"), ("B", "C2"), ("C", "C1"), ("C", "C2")])
rows = pd.MultiIndex.from_tuples([("X", "R1"), ("X", "R2"), ("Y", "R1"), ("Y", "R2"), ("Z", "R1"), ("Z", "R2")])
df = pd.DataFrame(data, columns=cols, index=rows)
       A       B       C    
      C1  C2  C1  C2  C1  C2
X R1   1   2   3   4   5   6
  R2   7   8   9  10  11  12
Y R1  13  14  15  16  17  18
  R2  19  20  21  22  23  24
Z R1  25  26  27  28  29  30
  R2  31  32  33  34  35  36

En este ejemplo los datos se han creado con np.arange() combinado con función np.reshape() para obtener una matriz de 6 por 6. Una vez hecho es necesario crear los multi-índice para las columnas y filas. Existen diferentes maneras de hacer esto, pero en el ejemplo se ha creado a partir de tuplas usando la función pd.MultiIndex.from_tuples(). Una vez obtenidos los objetos multi-índice el dataframe se crea de forma habitual usando para los índices de las filas y columnas estos elementos en lugar de vectores.

Eliminar filas o columnas de primer nivel

La eliminación de filas o columnas de primer nivel se hace igual que en el caso estándar. Simplemente se usa el método drop() del objeto indicando en la propiedad columns el nombre de la columnas o columnas que se desea eliminar y, de forma análoga, la propiedad index para las filas. Así para eliminar la columna B y la fila Y se puede usar la siguiente línea de código.

df.drop(columns="B", index="Y")
       A       C    
      C1  C2  C1  C2
X R1   1   2   5   6
  R2   7   8  11  12
Z R1  25  26  29  30
  R2  31  32  35  36

Alternativamente para eliminar filas se puede indicar solamente el nombre de estas en el método drop(). En el caso de las columnas también se puede conseguir indicando el nombre y asignado el valor 1 a la propiedad axis. Lo que requiere un paso para borrar las columnas y otro para las filas.

Por otro lado, si se desea eliminar más de una columnas o fila simplemente se ha de pasar un vector con los índices que se desean eliminar. Así para borrar las columnas A y B al mismo tiempo que las filas X y Z se puede escribir el siguiente comando.

df.drop(columns=["A", "C"], index=["X", "Z"])
       B    
      C1  C2
Y R1  15  16
  R2  21  22

Eliminar columnas o filas multi-índice

Ahora, en el caso de que queramos eliminar las columnas C2 del segundo nivel usar lo explicado hasta ahora produciría un error. Para evitar esto es necesario indicar mediante la propiedad level de drop() que se desea eliminar una columna de segundo nivel. Esto es, asignando el valor 1 a la propiedad como se muestra a continuación.

df.drop(columns="C2", level=1)
       A   B   C
      C1  C1  C1
X R1   1   3   5
  R2   7   9  11
Y R1  13  15  17
  R2  19  21  23
Z R1  25  27  29
  R2  31  33  35

De hecho, esto es algo que tiene bastante sentido, ya que en el caso de que se use la misma etiqueta en dos niveles diferentes Pandas no pude saber cuál de ellos eliminar. Por lo que es necesario indicar el nivel sobre el que se desea aplicar cuando esto no es el primero.

En el caso de las filas el proceso es análogo al anterior.

df.drop(index="R2", level=1)
       A       B       C    
      C1  C2  C1  C2  C1  C2
X R1   1   2   3   4   5   6
Y R1  13  14  15  16  17  18
Z R1  25  26  27  28  29  30

Al igual que para los índices de primer nivel también es posible eliminar mediante una sola instrucción filas y columnas. Aunque es necesario que sean del mismo nivel.

df.drop(columns="C2", index="R2", level=1)
       A   B   C
      C1  C1  C1
X R1   1   3   5
Y R1  13  15  17
Z R1  25  27  29

Aplanar los índices

En el ejemplo, una vez eliminada una fila y una columna de segundo nivel los tener múltiples índices es algo redundante. Algo que se puede solucionar eliminando los niveles redundantes empleando el método droplevel() de los índices. Un método que tiene como único parámetro el nivel que se desea eliminar de los índices, siendo el valor por defecto el primero (0). Su uso es sencillo, solamente hay que aplicarlo al índice y asignar el resultado al dataframe, tal como se muestra en el siguiente ejemplo.

df2 = df.drop(columns='C2', index='R2', level=1)
df2.columns = df2.columns.droplevel()
df2.index = df2.index.droplevel()
    C1  C1  C1
R1   1   3   5
R1  13  15  17
R1  25  27  29

Aunque en este caso, posiblemente sea más interesante eliminar los índices de segundo nivel.

df2 = df.drop(columns="C2", index="R2", level=1)
df2.columns = df2.columns.droplevel(1)
df2.index = df2.index.droplevel(1)
    A   B   C
X   1   3   5
Y  13  15  17
Z  25  27  29

En el caso de que se desee conservar ambos índices pero eliminado los subniveles se puede solucionar el problema mediante una lista por comprensión.

df2 = df.drop(columns="C2", index="R2", level=1)
df2.columns = df2.columns.droplevel(1)
df2.index = df2.index.droplevel(1)

Conclusiones

En esta entrada se ha visto el uso del método drop() para eliminar columnas o filas multi-índice en un dataframe de Pandas. Complementado de este modo lo visto en una entrada anterior.

Imagen de Cari R. en Pixabay