Revista Informática

Importar archivos Apache Arrow o Feather en Julia

Publicado el 27 octubre 2021 por Daniel Rodríguez @analyticslane
Importar archivos Apache Arrow o Feather en Julia

Recientemente hemos visto las ventajas que ofrece el uso del formato de archivo Feather frente a CSV en Python. En primer lugar, el tamaño de los archivos resultantes es mucho más pequeño, en torno a un tercio. Además, el tiempo necesario para guardar y cargar los datos es varios órdenes de magnitud, lo que significa pasar de segundos a décimas de segundos. Siendo ambos aspectos importantes a la hora de trabajar con grandes conjuntos de datos. Hoy vamos a ver los pasos necesarios para trabajar con archivos Feather en Julia.

Diferencia entre Arrow y Feather

Entre los paquetes de Julia nos podemos encontrar con un paquete llamado Feather.jl el cual solo puede trabajar con la primera versión del formato (Feather v1). Una versión que ahora se encuentra en desuso. La segunda versión (Feather v2), la que usa Pandas por defecto, es simplemente el formato Apache Arrow volcado a disco. Para trabajar con este formato se debe usar el paquete Arrow.jl.

En esta entrada nos vamos a centrar únicamente en el formato Apache Arrow (Feather v2) ya que es el recomendado actualmente. El paquete Feather.jl solamente se debería usar para importar ficheros antiguos que tengamos en el formato antiguo.

Por defecto, el método to_feather() de Pandas usa el formato Apache Arrow, aunque en es compatible con formato antiguo. Siendo esto algo que puede llevar a confusión para los usuarios de Pandas.

Instalación del paquete Arrow.jl

Antes de poder trabajar con archivos Apache Arrow en Julia es necesario instalar el paquete Arrow.jl. Usado para ello el método estándar de instalación, esto es, escribiendo los siguientes comandos

julia> using Pkg

julia> Pkg.add("Arrow")

Proceso que descargará e instalará tanto el paquete como todas sus dependencias en nuestro sistema.

Importación de los archivos Apache Arrow o Feather en Julia

Una vez instalado el paquete ya se pueden importar los datos desde los archivos Arrow o Feather en Julia. Para ello se tiene que importar el paquete y usar el siguiente la instrucción Arrow.Table() pasando como único parámetro un objeto de tipo io::IO o file::String, tal como se muestra a continuación

julia> using Arrow

julia> table = Arrow.Table("data.feather")

El resultado es un objeto de tipo Arrow.Table. En el caso de que deseemos trabajar con un objeto DataFrame solamente hay que convertirlo con DataFrame

julia> using DataFrames

julia> df = DataFrame(table)

Exportar archivos Apache Arrow o Feather en Julia

Para guardar un conjunto de datos en un archivo Apache Arrow se puede utilizar el método Arrow.write() pasando como primer parámetro el nombre del archivo y como segundo un objeto compatible (pudiendo ser tanto de tipo Arrow.Table como DataFrame)

julia> Arrow.write("data.arrow", df)

Generando de este modo un archivo data.arrow que puede ser importado en Python mediante el método pd.read_feather().

Conclusiones

En esta entrada hemos visto los pasos necesarios para importar archivos Apache Arrow o Feather en Julia. Además de comprender la relación que existe entre los formatos Apache Arrow y Feather.

Imagen de Paul Barlow en Pixabay


Volver a la Portada de Logo Paperblog