Revista Informática

Pandas: Conversion de texto a fecha

Publicado el 22 julio 2021 por Daniel Rodríguez @analyticslane
Pandas: Conversion de texto a fecha

La librería NumPy de Python define el tipo de dato datetime64 para trabajar con fechas y diferencias entre fechas. Un tipo con el que es realmente fácil trabajar con este tipo de información tan complejo, haciendo fáciles operaciones que de otra manera serían complicadas. Por lo que es el tipo de dato que se suele usar en los DataFrames de Pandas. A la hora de importar fechas es habitual que estas se encuentren como cadenas de texto, por lo que en Pandas existe la función to_datetime() mediante la cual se pueden realizar la conversión de estos datos de texto a fecha. Veamos el uso básico de esta función.

La función to_datetime() de Pandas

En Pandas tenemos la función to_datetime() que básicamente tiene la siguiente forma

pd.to_datetime(arg, errors='raise', dayfirst=False, yearfirst=False, utc=None, format=None, exact=True, unit=None, infer_datetime_format=False, origin='unix', cache=True)

siendo los parámetros más importantes:

  • arg: El elemento que se convierte al tipo de dato fecha, el cual puede ser una serie o un registro único.
  • format: Una cadena de texto mediante la que se indica el formato en el que se encuentra originalmente la fecha.
  • dayfirst: Valor lógico mediante el que se indica si el primer valor de la fecha es el día, el valor por defecto de la opción es falso.
  • yearfirst: Valor lógico mediante el que se indica si el primer valor de la fecha es el año, el valor por defecto de la opción es falso.

Conversión básica de cadenas de texto a fecha

Para convertir una cadena de texto en fecha simplemente se tiene que llamar al método to_datetime() pasando como parámetro la cadena de texto. Así una cadena de texto se puede interpretar solamente con

import pandas as pd

pd.to_datetime('10/11/12')
Timestamp('2012-10-11 00:00:00')

En el ejemplo se ha usado un valor que puede ser ambiguo ("10/11/12") donde los tres valores se pueden interpretar como el día, el mes o el año de la fecha. La función ha interpretado la fecha como el 11 de octubre de 2012, por lo que ha tomado el primer valor como el mes, el segundo como el día y el tercero como el año. Algo que se puede modificar mediante las propiedades dayfirst o yearfirst. En el primero de los casos los valores de la cadena de texto serán interpretados como día, mes y año, mientras que en el segundo como año, mes y día.

pd.to_datetime('10/11/12')                 # 2012-10-11
pd.to_datetime('10/11/12', dayfirst=True)  # 2012-11-10
pd.to_datetime('10/11/12', yearfirst=True) # 2010-11-12

Formato de fecha personalizado con format

Aunque estas opciones pueden ser más que suficiente en muchas ocasiones, es posible tener una mayor presión indicado en formato mediante una cadena de texto con la propiedad format. Por ejemplo, se podría llegar a indicar una combinación poco habitual donde en primer lugar este el día, en segundo lugar, el año y en tercer lugar el mes.

pd.to_datetime('10/11/12', format='%d/%y/%m')
Timestamp('2011-12-10 00:00:00')

El año se indica con mediante %y cuando este tiene dos valores y con %Y cuando tiene cuatro. Es importante usar el valor correcto ya que en caso contrario la función lanzará una excepción.

Interpretación de las horas

En el caso de que la cadena de texto tenga horas, estas también se interpretarán, para lo que habitualmente se interpretará con el formato de hora, minutos y segundos.

pd.to_datetime('10/11/12 12:22:11')
Timestamp('2012-10-11 12:22:11')

Conversión Series en DataFrames

La función to_datetime() también se puede utilizar directamente sobre la series de los DataFrames. Para ver esto se puede crear en primer lugar un objeto y comprobar el tipo de cada una de las series.

users = {'first_name': ['Montgomery', 'Dagmar', 'Reeba', 'Shalom', 'Broddy', 'Aurelia'],
         'last_name': ['Humes', 'Elstow', 'Wattisham', 'Alen', 'Keningham', 'Brechin'],
         'age': [27, 41, 29, 29, 21, 33],
         'gender': ['Male', 'Female', 'Female', 'Male', 'Male', 'Female'], 
         'date': ['21/10/2021', '12/8/2021', '1/7/2020', '2/6/2021', '12/3/2021', '11/2/2021']}

df = pd.DataFrame(users)
df.dtypes
first_name    object
last_name     object
age            int64
gender        object
date          object
dtype: object

En esta ocasión, como es de esperar, todos los valores menos age son de tipo object. Indicando de este modo que son cadenas de texto. Ahora se puede convertir la columna date en serie de tipo datetime64.

df['date'] = pd.to_datetime(df['date'])
df.dtypes
first_name            object
last_name             object
age                    int64
gender                object
date          datetime64[ns]
dtype: object

Un punto importante es que no se le ha pasado una opción de formato a la función. Así la función interpretará por defecto el primer valor como el mes y el segundo como el año. En los casos en los que esto no es posible, cuando el primer valor es mayor de 12, se interpretará el primer valor como el día y el segundo como el mes. Algo que, como en este caso, puede llevar a que unas filas se interprete de una manera y otras de otra, por lo que es importante indicar el formato si no es el formato por defecto.

   first_name  last_name  age  gender       date
0  Montgomery      Humes   27    Male 2021-10-21
1      Dagmar     Elstow   41  Female 2021-12-08
2       Reeba  Wattisham   29  Female 2020-01-07
3      Shalom       Alen   29    Male 2021-02-06
4      Broddy  Keningham   21    Male 2021-12-03
5     Aurelia    Brechin   33  Female 2021-11-02

Conclusiones

En esta ocasión hemos visto la función to_datetime() para convertir cadenas de texto en fechas, un proceso que posiblemente tengamos que hacer de forma habitual.


Volver a la Portada de Logo Paperblog