Estimad@s
amig@s
Sinopsis
En este libro se trata el papel que tiene la preservación de la privacidad en el proceso de publicación
de datos. En concreto, se ven los principales métodos de enmascaramiento de datos y el modelo
de k-anonimidad, que
representa uno de los modelos más conocidos y empleados en los procesos de anonimización.
El objetivo de estos
procesos es asegurar la privacidad de
los datos de la ciudadanía cuando se
publica información que contiene datos personales. Por un lado, la
publicación de estos datos es muy útil para la investigación que realizan instituciones, universidades y empresas;
pero por otro lado, se debe evitar la violación
de privacidad que pudieran sufrir
los individuos que aparecen en estos conjuntos de datos.
Los diferentes capítulos
de este libro
comprenden la definición de la problemática
relacionada con la privacidad, los modelos teóricos más importantes —esto
es, aleatorización o perturbación aleatoria, el modelo de la k-anonimidad y la privacidad
diferencial— y las problemáticas
y soluciones específicas en
distintos entornos de datos,
incluyendo los datos tabulares, localizaciones y datos temporales, redes
sociales y registros de búsquedas.
«Aprender muchas cosas no nutre la
inteligencia»
Heráclito
Prólogo
Ya sea por interés mutuo o
por la existencia de todo tipo de regulaciones que así lo exigen, individuos y
organizaciones de todo el mundo se ven obligados a publicar los datos que recogen
en diferentes estudios demográficos o de investigación. La publicación (…) de
estos datos puede producir unos efectos muy beneficiosos incluso para los
participantes de estos estudios (…)
(…) la publicación o la
compartición de bases de datos que, a menudo, contienen información privada —incluso
sensible– de un conjunto de ciudadanos necesita realizarse de manera que se
respeten las garantías de privacidad de los individuos (…) garantías de
privacidad no se pueden conseguir con planteamientos simplistas, como eliminar
o modificar los nombres u otros identificadores habituales (…) diferentes tipos
de datos combinados entre sí se convierten en «cuasidentificadores» que pueden
servir para determinar la identidad de algunos de los individuos presentes en
los datos.
En un estudio muy conocido
publicado en el año 2000 [38], Latanya
Sweeney, directora y fundadora del Data Privacy Lab,
mostraba cómo el 87% de la población de los Estados Unidos de América podría ser
identificada únicamente a partir de su código postal, sexo y fecha de
nacimiento. Del mismo modo, casi la mitad se podrían identificar sustituyendo
el código postal por la ciudad, pueblo o municipio de residencia. Incluso un
18% todavía se podrían identificar si, en lugar del código postal, se dispusiera
del condado de residencia (…) necesidad de desarrollar diferentes herramientas
para garantizar la privacidad de los ciudadanos en el contexto de la publicación
de este tipo de datos.
David Megías Jiménez
«Hace falta saber
mucho para poder ocultar que nada se sabe»
Marie von
Ebner-Eschenbach
Estamos inmersos en la vorágine del dato. Todos hablamos de Big
Data como si fueran peladillas, pero pocos se atreven a levantar la voz
y hablar de la necesaria privacidad y
anonimización del dato.
Compartimos nuestros datos
con demasiada alegría o irresponsabilidad ¿Somos
conscientes realmente de la información que estamos compartiendo? ¿Sabemos que uso―tratamiento que le darán
las empresas a las que les estamos cediendo información? ¿Qué puede pasar por
el uso―abuso de la información que estamos compartiendo?
Privacidad y
anonimización de datos se puede leer bajo dos primas, la del
profano que le va a ayudar cuidar más la manera en que comparte sus datos; Y
una segunda para los profesionales que se dedican a su gestión que sin duda
encontrarán un catálogo de metodologías
para anonimizar los datos y de esa manera poder seguir
trabajando con ellos sin poner en riesgo la integridad de los ciudadanos.
«La mayor sabiduría que
existe es conocerse a sí mismo»
Galileo Galilei
La minería de datos (data mining)
es el proceso de extraer información útil, interesante, y desconocida hasta el
momento de conjuntos de datos. El éxito de la minería de datos se basa en la
disponibilidad de datos de calidad (…)
Desde el punto de vista de
la privacidad o anonimización, los atributos de un conjunto de datos se dividen en
cuatro clases, según el tipo de información que contienen:
● Los Identificadores
● Los casidentificadores
● Los atributos sensibles
● Los atributos no sensibles
(…) el objetivo es que un
único individuo sea indistinguible respecto a un conjunto de individuos
suficientemente grande para proteger su identidad, de tal forma que el atacante
solo puede deducir cierta información con una cierta probabilidad (…)
(…) existen dos enfoques
principales para limitar el riesgo de divulgación en procesos de publicación de
datos:
● Protección no interactiva
● Protección interactiva
(…) si los datos de un
individuo tienen un impacto significativo en los resultados de un análisis,
probablemente la privacidad de este individuo está en riesgo (…)
Los métodos de enmascaramiento
permiten modificar los datos originales con el objetivo de impedir o dificultar
la identificación de un usuario en los datos
protegidos. Estos métodos se pueden clasificar en tres categorías básicas
en función de cómo se manipulan los datos originales para definir el conjunto
de datos protegidos.
● Métodos perturbativos
●
Métodos no perturbativos
●
Generadores de datos sintéticos
En los últimos años, se ha
generalizado de manera significativa el uso de tecnologías como el sistema de
posicionamiento global (GPS), la identificación por radiofrecuencia
(RFID)
o los servicios basados en la localización (LBS). Estos sistemas
permiten determinar en un momento concreto la posición de un objeto (…) con una
precisión de metros o centímetros (…)
(…) los datos de localización y los temporales,
sobre todo asociados a trayectorias, a menudo pueden revelar información personal sobre los individuos. Conociendo datos
de localización, y combinándolos en algunos casos con atributos casidentificadores (...) revelar información que vulnera la
privacidad de los usuarios (…) analizando las localizaciones más
frecuentadas y las horas a las que fueron visitadas, es posible inferir información sobre la dirección
del domicilio, estilo de vida, preferencias, creencias religiosas, ideología política
(…)
(…) el principal reto que
se plantea en estos sistemas es preservar
la privacidad de los usuarios sin
perder la utilidad de datos.
En los últimos años la
representación de datos en formato de
red ha experimentado un importante auge en todos los niveles. Este formato
permite representar estructuras y realidades más complejas que los tradicionales datos relacionales, que utilizan el
formato de tuplas (…) permite representar de
un modo más rico las relaciones que puedan existir entre las distintas
entidades que forman el conjunto de datos.
(…) se están recopilando
grandes cantidades de datos sobre redes sociales, que a menudo contienen información personal y privada de usuarios e individuos. Aunque
se realizan procesos básicos de anonimización de datos, como la eliminación de nombres u otros identificadores de claves, la información restante puede ser sensible y útil para que
un atacante vuelva a identificar usuarios e individuos dentro del conjunto de datos anónimos.
Respecto a la información que se debe preservar en las redes sociales, se han identificado tres categorías principales de amenazas a la privacidad:
● La divulgación de la identidad (identity
disclosure)
● La divulgación de los atributos (attribute
disclosure)
● La divulgación de las relaciones (link
disclosure)
Los motores de búsqueda son herramientas
que permiten a los usuarios localizar
información específica en internet. El objetivo para conseguir tener éxito
es mostrar los resultados que coinciden con los intereses de cada usuario (…) recopilan
y analizan el historial de búsqueda de los usuarios para crear perfiles (…)
Aunque ofrecen un servicio
muy útil, también representan una amenaza
para la privacidad de los usuarios. Los perfiles se crean a
partir de consultas pasadas y otros datos relacionados que pueden contener
información sensible y personal. Para evitar esta amenaza de privacidad, es necesario proporcionar mecanismos de preservación de la privacidad que protejan
a los usuarios (…)
(…) los datos son una fuente innegable de información,
que puede ser utilizada por las administraciones públicas para mejorar el rendimiento de las ciudades
y la vida de sus ciudadanos, así como por parte de
cualquier tipo de empresa, que puede optimizar
su proceso de marketing y venta. Pero en ningún caso se debe
permitir que estas «mejoras» sean el precio de sacrificar la privacidad
de los usuarios (…)
«El medio más seguro de
ocultar a los otros los límites del propio saber es no traspasarlos»
Giacomo Leopardi
Privacidad y anonimización de datos
Jordi Casas-Roma
Cristina Romero Tris
Editorial UOC
Link de interés
● Una ética para Big data; Introducción a la gestión ética de datos masivos
«El camino del deber
se encuentra enfrente al sendero del egoísmo»
Niceto Alcalá-Zamora
Recibid un cordial saludo