En ciertas ocasiones, tras la importación de un conjunto de datos, puede ser que uno de los registros de un dataframe contenga listas de valores en lugar de un único valor. Generalmente, para poder trabajar con estos valores es necesario convertir las listas en series. Esta transformación es una tarea trivial cuando solamente se ha de realizar para un único registro. En el caso de trabajar con un datafreame para la expansión de listas de valores es necesario emplear el método apply de los objetos de pandas.
Creación de un conjunto de datos
Inicialmente se ha de crear un conjunto de datos para procesar. Por ejemplo, se puede crear un dataframe con tres registros con diferentes listas empleado las siguientes líneas de código:
import pandas as pd data = {'values': [['Shpola', 'Cocobeach', 'Haixing', 'Biaoshan'], ['Comedy', 'Action', 'Drama', 'War'], ['Oil', 'Juice', 'Apple', 'Potatoes']]} df = pd.DataFrame(data)
Se puede apreciar que en cada uno de los registros del dataframe existe un vector con una lista de elementos. Esto hace que sea difícil trabajar con estos datos.
Procesado de las listas de valores con pandas
La expansión de una lista de valores en una serie se puede conseguir con el método pd.Series. Para aplicar este método a todos los registros de un dataframe se puede utilizar el método apply de los objetos de pandas. La expansión del dataframe anterior se puede conseguir con el siguiente código:
tags = df['values'].apply(pd.Series)
Ahora es necesario renombrar las columnas del nuevo dataframe con un nombre que sea significativo. Esto se puede conseguir con la siguiente línea de código:
features = features.rename(columns = lambda x : 'feature_' + str(x))
Los resultados obtenidos se pueden concatenar con los valores anteriores. Para esto solamente se ha de emplear el método concat tal como se muestra a continuación.
pd.concat([df[:], features[:]], axis=1)
Obteniéndose como resultado la siguiente figura.
Conclusiones
En esta entrada se ha visto la forma de utilizar el método apply en pandas para realizar una operación sobre todos los registros de un dataframe. En esta ocasión se ha visto como expandir una lista de valores.
Imágenes: Pixabay