Los diccionarios son unas estructuras de datos muy flexibles que relacionan una clave con un valor. En Python la clave puede ser cualquier tipo de dato inmutable y el valor puede ser cualquier tipo de dato. La principal diferencia entre los diccionarios y las listas o tuplas es el cómo se acceden a los valores. Mientras que en las listas o tuplas se accede mediante índices en los diccionarios se accede mediante la clave. En ciertas ocasiones puede que los datos se encuentren en un diccionario y sea necesario convertirlos en un DataFrame. En esta entrada se va a explicar como convertir un diccionario en DataFrame en Python con Pandas.
Convertir un diccionario básico en un DataFrame
El problema básico es convertir un diccionario en que el valor es un tipo de dato primitivo. Es decir, este no es una lista, tupla, conjunto o diccionario, sino que es un número o una cadena de caracteres. Por ejemplo, partiendo del siguiente conjunto de datos generado en Mockaroo.
clients = { "Waldon Astling": 1.83, "Catherine MacTerlagh": 0.15, "Gusty Wondraschek": 9.19, "Lois Vaan": 1.28, "Baird Eberts": 0.82, "Amalia Flieg": 2.88, "Leontine Wildbore": 9.44, "Rikki Chasteney": 7.01, "Augustine Papierz": 0.22, "Maynord Lawrance": 0.33 }
El diccionario se puede convertir en un DataFrame utilizando el siguiente código.
import pandas as pd df = pd.DataFrame([[key, clients[key]] for key in clients.keys()], columns=['Name', 'Amount']) df
En este únicamente se recorre el diccionario al mismo tiempo que se puebla el DataFrame. Al ejecutar el código se obtiene la siguiente tabla como resultado.
Resultado de convertir un diccionario en DataFrameConvertir un diccionario cuyo valor es otro diccionario.
Ahora se puede aumentar la apuesta, el valor del diccionario es otro diccionario. Por ejemplo, convertir el siguiente diccionario.
clients = { "Waldon Astling": { "id": 1, "email": "[email protected]", "gender": "Male", "ip_address": "188.125.74.119", "money": 1.83 }, "Catherine MacTerlagh": { "id": 2, "email": "[email protected]", "gender": "Female", "ip_address": "142.102.151.95", "money": 0.15 }, "Gusty Wondraschek": { "id": 3, "email": "[email protected]", "gender": "Female", "ip_address": "25.253.221.98", "money": 9.19 }, "Lois Vaan": { "id": 4, "email": "[email protected]", "gender": "Female", "ip_address": "1.196.39.50", "money": 1.28 }, "Baird Eberts": { "id": 5, "email": "[email protected]", "gender": "Male", "ip_address": "88.230.140.148", "money": 0.82 }, "Amalia Flieg": { "id": 6, "email": "[email protected]apy.cz", "gender": "Female", "ip_address": "203.219.142.196", "money": 2.88 }, "Leontine Wildbore": { "id": 7, "email": "[email protected]", "gender": "Female", "ip_address": "255.74.26.131", "money": 9.44 }, "Rikki Chasteney": { "id": 8, "email": "[email protected]", "gender": "Female", "ip_address": "90.29.53.76", "money": 7.01 }, "Augustine Papierz": { "id": 9, "email": "[email protected]", "gender": "Female", "ip_address": "43.165.166.247", "money": 0.22 }, "Maynord Lawrance": { "id": 10, "email": "[email protected]", "gender": "Male", "ip_address": "174.230.82.205", "money": 0.33 } }
En este caso es necesario realizar el proceso en fases, en un primer lugar se ha de convertir las llaves y en segundo lugar convertir uno a uno los elementos del segundo diccionario. Esto se puede conseguir empleando el siguiente código.
df = pd.DataFrame([key for key in clients.keys()], columns=['Name']) df['id'] = [value['id'] for value in clients.values()] df['email'] = [value['email'] for value in clients.values()] df['gender'] = [value['gender'] for value in clients.values()] df['ip_address'] = [value['ip_address'] for value in clients.values()] df['money'] = [value['money'] for value in clients.values()] df
A partir de lo que se obtiene la siguiente tabla como resultado.
Resultado de convertir un diccionario con un diccionario en los valores en un DataFrameValidar la existencia del valor en el segundo diccionario
El código visto anteriormente presenta un problema cuando no existe una clave en el diccionario valor. En tal caso el código terminará en un error sin realizar la transformación. Para evitar este problema es necesario comprobar si cada una de las claves existe antes de añadirla al DataFrame. Una forma fácil de hacer el mediante el operador in
, comprobando si la llave se encuentra en el listado. Este proceso es el que se muestra en las siguientes líneas de código.
df = pd.DataFrame([key for key in clients.keys()], columns=['Name']) df['id'] = [value['id'] if 'id' in value.keys() else None for value in clients.values()] df['email'] = [value['email'] if 'email' in value.keys() else None for value in clients.values()] df['gender'] = [value['gender'] if 'gender' in value.keys() else None for value in clients.values()] df['ip_address'] = [value['ip_address'] if 'ip_address' in value.keys() else None for value in clients.values()] df['money'] = [value['money'] if 'money' in value.keys() else None for value in clients.values()] df
Conclusiones
En esta entrada se ha visto cómo transformar un diccionario en Python en un DataFrame. Este truco permite convertir una estructura de datos en otra para emplear la más adecuada en cada momento.
Imágenes: Pixabay (Steve Buissinne)