Aunque no sepan tu nombre,
las máquinas saben quién eres: las bases de datos anónimas no lo son tanto
· Las empresas que procesan datos personales a menudo tienen que
'anonimizarlos' para poder sacar conclusiones o comercializarlos
· Un estudio publicado en la revista Nature anuncia que los algoritmos
empiezan a hacer deducciones complejas que permiten identificar a personas a
través del rastro que dejan
Líneas
de código Markus Spiske / Unsplash
elDiario.es
25 de
julio de 2019 21:06h
El rastro
que dejamos al comprar, al ir al médico o al usar cualquier aplicación del
móvil va trazando nuestra personalidad online. Las empresas que
controlan esos datos tienen limitaciones por ley,
y en muchos casos para procesar y comercializarlos tienen que anonimizarlos.
'Anonimizar' significa desvincular el rastro de la identidad para poder sacar
conclusiones o comercializar los datos agregados sin poner en riesgo la privacidad.
En pocas palabras: anonimizar supondría quitar en muchos casos las columnas de
la hoja de cálculo en las que aparece nuestro DNI, nuestro nombre, los años que
tenemos o el lugar en el que vivimos. Por ejemplo, una aseguradora puede
eliminar el nombre, los apellidos, los emails y los números de teléfono de
alguien cuando vende a un fabricante de coches los datos sobre qué accidentes
son más habituales.
A partir de
un algoritmo de su creación, los dos equipos consiguieron estimar la
probabilidad que tiene alguien que aparece en una base de datos anonimizada
para ser identificado de nuevo. Han creado la herramienta a partir de 210 bases
de datos procedentes de cinco fuentes diferentes, entre las que se encuentra el
censo de los EEUU y un repositorio destinado a los investigadores que trabajan
con técnicas de machine learning (aprendizaje
automático), el UCI.
El algoritmo
aprendió qué combinaciones son más frecuentes y cuales menos, y luego asignó
una probabilidad para la correcta identificación de un individuo. Aunque han
habilitado una web para probar la herramienta, es necesario
introducir el país de residencia. Al utilizar la base de datos del censo
estadounidense y el UCI, que contiene registros de residentes en Reino Unido,
nadie que no viva en alguno de estos dos países puede jugar a ser Dios con los
datos.
Revertir el anonimato de 7 millones de personas
La
herramienta de los investigadores solo pide que el usuario introduzca su fecha
de nacimiento, su código postal y si es hombre o mujer. De forma general, con
estas tres características, alguien que viva en EEUU o Reino Unido puede ser
correctamente identificado en una base de datos anonimizada el 81% de las
veces. La precisión depende de lo grande o pequeña que sea la población, de tal
forma que con bases de datos grandes el número disminuye mientras que con bases
de datos pequeñas la fiabilidad aumenta. "A medida que la información se
acumula, las opciones de que no seas tú decrecen rápidamente",
explica Yves-Alexandre de Montjoye, uno de los investigadores del Imperial
College London.
El algoritmo
es preciso y le da igual que haya miles que millones de entradas. "No
llevaría demasiado tiempo identificar a todos los que viven en Harwich Port,
Massachusetts, una ciudad de menos de 2.000 habitantes", dicen en el
informe. El modelo funciona incluso con una base de datos cercana a los 7
millones, algo más de la población total que vive en el estado norteamericano.
Usando 15 variables demográficas, el algoritmo consiguió identificar a los
habitantes de Massachusetts al 99,98%.
Los autores
del estudio se quejan de cómo de fácil es volver a recuperar los datos
previamente anonimizados y sostienen que ni siquiera el RGPD (Reglamento
General de Protección de Datos), que entró en vigor en mayo del año pasado, es
suficiente para salvaguardar nuestra información. "Es poco probable que
incluso los conjuntos de datos altamente anonimizados cumplan con los
estándares modernos establecidos por el RGPD", asegura de Montjoye, autor
principal del trabajo.
No es el
primer estudio de este tipo que se publica. En 2007, un informe ya
reveló que los votos a películas y series de un usuario cualquiera
de Netflix, si se cruzaban con las calificaciones de IMDb (Internet Movie Database),
podían servir para desanonimizar a esa persona. Otro trabajo de 2017 publicado
en arXiv demostró que solo unos pocos datos bastaban para identificar a todos
aquellos que decidieron inscribirse en el programa del gobierno australiano
para ofrecer datos de facturación médica de forma anónima.