Un problema habitual en los conjuntos de datos es la existencia de registros duplicados. La duplicidad puede ser del registro completo o solamente de unos elementos. Por ejemplo, se ha registrado dos veces la misma operación con diferente identificador. Saber cómo eliminar estos registros duplicados es imprescindible para evitar posibles errores en los análisis posteriores. En esta se explicarán los métodos disponibles en los dataframes para la eliminación de registros duplicados en pandas.
Creación de un dataframe de ejemplo
Para poder eliminar datos duplicados de un dataframe en primer lugar se ha de crear un conjunto de datos con este problema. Esto es lo que se crea con las siguientes líneas de código
import pandas as pd data = {'id': [1, 2, 3, 4, 5, 6, 7, 7], 'first_name': ['Sigrid', 'Kennedy', 'Theodoric', 'Sigrid', 'Kennedy', 'Beatrix', 'Olimpia', 'Olimpia'], 'last_name': ['Mannock', 'Donnell', 'Rivers', 'Mannock', 'Donnell', 'Parlett', 'Guenther', 'Guenther'], 'age': [27, 31, 36, 27, 53, 48, 36, 36], 'amount': [7.17, 1.90, 1.11, 7.17, 1.41, 6.69, 4.62, 4.62]} df = pd.DataFrame(data, columns = ['id', 'first_name', 'last_name', 'age', 'amount']) df
id first_name last_name age amount 0 1 Sigrid Mannock 27 7.17 1 2 Kennedy Donnell 31 1.90 2 3 Theodoric Rivers 36 1.11 3 4 Sigrid Mannock 27 7.17 4 5 Kennedy Donnell 53 1.41 5 6 Beatrix Parlett 48 6.69 6 7 Olimpia Guenther 36 4.62 7 7 Olimpia Guenther 36 4.62
Eliminación de los registros duplicados en pandas
En le conjunto de datos lo primero que se puede apreciar es que los dos últimos registros son idénticos. El método duplicated()
del dataframe muestra esto de forma clara:
df.duplicated()
0 False 1 False 2 False 3 False 4 False 5 False 6 False 7 True
Ahora simplemente utilizando el método drop_duplicates()
se puede eliminar estos registros:
df = df.drop_duplicates() df
id first_name last_name age amount 0 1 Sigrid Mannock 27 7.17 1 2 Kennedy Donnell 31 1.90 2 3 Theodoric Rivers 36 1.11 3 4 Sigrid Mannock 27 7.17 4 5 Kennedy Donnell 53 1.41 5 6 Beatrix Parlett 48 6.69 6 7 Olimpia Guenther 36 4.62
Obteniéndose un nuevo dataframe sin duplicados.
df.duplicated()
0 False 1 False 2 False 3 False 4 False 5 False 6 False
Eliminación de los registros duplicados parciales en pandas
Los duplicados pueden ser también parciales. Un ejemplo típico es un mismo registro que se ha guardado con dos identificadores diferentes. En el conjunto de datos de ejemplo esta situación se puede ver en los registros 1 y 4. Para comprobar esto se le puede indicar al método duplicated()
que solamente unas columnas.
df.duplicated(df.columns[~df.columns.isin(['id'])])
0 False 1 False 2 False 3 True 4 False 5 False 6 False
Análogamente al paso anterior se puede eliminar este tipos de registros utilizando el método drop_duplicates()
con las columnas. En esta ocasión una propiedad interesante de este método es keep
mediante la cual se puede indicas si se conserva la primera o ultima ocurrencia. Por defecto conserva la primera, peros se puede indicar que sea la úiltima:
df = df.drop_duplicates(df.columns[~df.columns.isin(['id'])], keep='first') df
id first_name last_name age amount 0 1 Sigrid Mannock 27 7.17 1 2 Kennedy Donnell 31 1.90 2 3 Theodoric Rivers 36 1.11 4 5 Kennedy Donnell 53 1.41 5 6 Beatrix Parlett 48 6.69 6 7 Olimpia Guenther 36 4.62
Reducción de las ocurrencias
Otra situación puede ser que un mismo cliente aparezca dos veces en la tabla y solamente se desee un registro por cliente. Esto se puede solucionar filtrando los registros solamente por el nombre y apellido. En esta situación se puede asumir que se desea únicamente el ultimo resistro por ser el más actualizado.
df.drop_duplicates(['first_name', 'last_name'], keep='last')
id first_name last_name age amount 0 1 Sigrid Mannock 27 7.17 2 3 Theodoric Rivers 36 1.11 4 5 Kennedy Donnell 53 1.41 5 6 Beatrix Parlett 48 6.69 6 7 Olimpia Guenther 36 4.62
Conclusiones
En esta entrada se ha visto cómo utilizar los métodos duplicated()
y drop_duplicates()
para eliminar los registros duplicados en pandas. Estas operaciones básicas son clave para garantizar la calidad de los conjuntos de datos y los análisis que se realizan con los mismos.