Unir múltiples archivos CSV en uno con Pandas

Publicado el 27 junio 2022 por Daniel Rodríguez @analyticslane

Por múltiples motivos es bastante habitual que un conjunto de datos llegue en varios archivos CSV en lugar de uno único. Algo que generalmente obliga unirlo en uno antes de poder realizar los análisis. Aunque es una tarea sencilla, puede ser tediosa si se repite de forma habitual. Para solucionar esto, se puede crear una función con Pandas para unir múltiples archivos CSV en uno solo. Tanto sea para usar en memoria como para guardar en el disco.

Importar archivos CSV con Pandas

La importación de la información contenida en archivos CSV es una tarea extremadamente sencilla en Pandas, solamente se tiene que indicar la ruta a la función read_csv(). Así para importar los datos de un archivo que se encuentra en una carpeta solamente se tiene que escribir algo como los siguientes.

import pandas as pd

df = pd.read_csv('data/MOCK_DATA.csv') 
df.head()

print(df.head())
   id first_name last_name                    email       gender       ip_address
0   1    Ermanno   Conrard[email protected] Male 255.98.19.201 1 2 Ulick Manders[email protected] Male 234.217.41.124 2 3 Berti Sumbler[email protected] Genderqueer 101.121.178.197 3 4 Brant Beaushaw[email protected] Male 59.0.246.5 4 5 Davie Truran[email protected] Male 190.37.41.180

Existen múltiples opciones en la función read_csv() para gestionar la importación de archivos tales como omitir filas o usar diferentes delimitadores.

Obtener el listado de archivos en una carpeta

El segundo punto para concatenar los archivos CSV es obtener el listado de estos. Algo que se puede hacer manualmente, pero, cuando el número de archivos es grande o estos cambian, es más cómodo usar Python para ello. El listado de archivos en una carpeta se puede obtener con la función listdir() de Python que se encuentra en las funciones del sistema operativo ( os). Así, los archivos de la carpeta data se pueden obtener con

import os

os.listdir('data')
['MOCK_DATA.csv', 'MOCK_DATA_2.csv', 'MOCK_DATA_3.csv', '.DS_Store']

Nótese que en esta función devuelve todos los archivos, no solamente los CSV, por lo que puede ser necesario filtrar el resultado. Algo que se puede hacer por ejemplo mediante una lista por comprensión.

[file for file in os.listdir(path) if '.csv' in file]
['MOCK_DATA.csv', 'MOCK_DATA_2.csv', 'MOCK_DATA_3.csv']

Ahora, es necesario obtener la ruta completa a todos los archivos, concatenando la ruta a la carpeta con los nombres de los archivos. Para esto la mejor opción es usar la función os.path.join(), al evitar tener que preocuparnos por el hecho de que el código se ejecute en Windows o UNIX. Lo que se muestra en el siguiente código.

path = 'data'

[os.path.join(path, file) for file in os.listdir(path) if '.csv' in file]
['data/MOCK_DATA.csv', 'data/MOCK_DATA_2.csv', 'data/MOCK_DATA_3.csv']

Moviéndose la ruta a una variable ( path) para facilitar la lectura y el mantenimiento del código.

Combinar múltiples archivos CSV en uno con Pandas

Una vez se tiene una el listado de archivos solamente hay que importarlos y concatenarlos. En Pandas para esto se pueden conseguir usando las funciones pd.read_csv(), lectura de los datos, y pd.concat(), concatenación de DataFrames. Empleando programación funcional para facilitar el proceso. En concreto mediante el uso de map() es posible ejecutar pd.read_csv() sobre el listado de archivos, obteniendo un listado de DataFrames. Resultado que se puede concatenar con pd.concat(), ignorando los índices ya que esto se repiten en cada importación. Lo que se puede hacer con el siguiente código.

df = pd.concat(map(pd.read_csv, files), ignore_index=True)
df.shape
(3000, 6)

Obteniendo en df los tres archivos en un único DataFrame. Finalmente, el resultado se puede guardar en un archivo con la propiedad to_csv() que tienen todos los DataFrames.

df.to_csv('mock_join.csv')

También se puede guardar los datos en otros formatos como Excel con los métodos de Pandas.

Conclusiones

En esta ocasión se ha visto cómo se pueden combinar las funciones de Python y Pandas para poder combinar múltiples archivos CSV en uno solo. Tarea que suele ser bastante habitual.

Apéndice: Función que implementa el proceso de unión de múltiples archivos CSV en uno

Dado que la combinación de archivos CSV es una tarea que se hace de forma habitual, crean una función para ello puede ser una buena idea. Así solo se tiene que llamar a la función. Por ello, con lo visto en la entrada, se puede crear la siguiente función.

import pandas as pd
import os

def join_csv(path=None, out_file=None):
    """
    Combina los archivos CSV existentes en una carpeta y devolverlo como un
    DataFrame.
    
    Parameters
    ----------
    path : string
        La ruta en la que se encuentran los archivos, si no se indica ninguna se
        usará la carpeta actual.
    out_file :string
        Archivo opcional en el que se guardará los resultados, en caso de que no
        se indique un nombre no se generará
    
    Returns
    -------
    DataFrame
        Obejto DataFrame con la unión de los archivos CSV
    """
    
    if path is None:
        files = [file for file in os.listdir() if '.csv' in file]
    else:
        files = [os.path.join(path, file) for file in os.listdir(path) if '.csv' in file]
        
    df = pd.concat(map(pd.read_csv, files), ignore_index=True)
    
    if out_file is not None:
        if path is None:
            df.to_csv(out_file)
        else:
            df.to_csv(os.path.join(path, out_file))
        
    return df