¿Cómo poner al servicio del progreso todo el potencial humano que vive en los datos, sin dañar a las personas y las historias tras ellos? La seudonimización de datos y anonimización son dos técnicas de ingeniería de la privacidad que pueden resolver esta cuestión.
A los datos van a adheridos personas, con nombres, apellidos, ubicación, información fiscal, historial médico… Y un sinfín de contenido revelador que puede poner fácilmente en peligro la integridad de esas personas.
Porque los datos son el nuevo oro, sí. Pero este oro no se obtiene de un objeto inerte.
Pero en los datos viven las soluciones a problemas aún no resueltos e historias que están por descubrir. En comparación con los datos, el valor del oro es mucho más limitado.
Pero su potencial de daño, también.
Entonces… ¿Cómo explotamos los datos de las personas, para las personas, pero sin las personas?
Cómo resolver el reto de la privacidad de los datos
Este es justo el nudo que pretende desentramar la ingeniería de la privacidad, desarrollando soluciones que permitan explotar los datos mientras se cumple con la legislación en materia de protección de datos y se protege a los individuos asociados a los mismos.
Y al igual que existen técnicas distintas para pintar un cuadro, existen distintas técnicas para proteger la privacidad de las personas en las bases de datos.
Dos de estas técnicas son la anonimización y la seudonimización de datos. Su objetivo es evitar la reidentificación no deseada de la persona tras el ítem de información.
Y prevenir así posibles amenazas a la privacidad de los individuos, cuya información personal está presente en grandes conjuntos de datos.
Pero el reto es hacerlo mientras se proporciona un acceso útil y masivo a los datos.
La legislación europea de protección de datos personales diferencia estas dos técnicas y recomienda su uso para diferentes aplicaciones, dependiendo del caso de uso, el grado de riesgo, la forma en que se procesan los datos dentro de cada empresa, etc.
Veamos cómo funciona y para qué se utiliza cada una.
Que es la anonimización
La anonimización es una técnica que transforma la información en la propia base de datos de manera irreversible.
Tras el proceso de anonimización, las personas y los datos quedan completamente disociados y no pueden volver a vincularse, directa o indirectamente.
Es decir, la anonimización convierte para siempre los datos personales en datos impersonales.
Para entenderlo de forma cotidiana, piensa en una obra de arte anónima: puedes verla, leerla, conocerla, disfrutarla y usarla… Pero nunca saber de quién ha nacido.
Que es la seudonimización
Tomando la misma referencia, ¿qué es un seudónimo en arte? Alguien ficticio a quien se puede atribuir esa obra. Es decir, se pueden asociar varias obras a un mismo seudónimo, pero la idea es que ese seudónimo no se pueda trackear hasta una persona real.
De esta manera se puede trazar una relación entre las obras, pero no una relación entre las obras y su autoría.
Con la seudonimización de los datos ocurre lo mismo. La seudonimización permite cambiar un dato por un seudónimo o alias.
La relación entre la persona original, el seudónimo y el dato se mantiene, pero solo se puede descifrar con una clave.
Y, si se destruye esa clave, entonces el seudónimo perdería su vinculación con la persona real. El dato quedaría asociado a un seudónimo, y el seudónimo, a nadie.
Diferencias entre anonimización y seudonimización
Como puedes deducir, la principal diferencia es que la seudonimización suele utilizarse cuando se quiere mantener la relación entre la persona y el dato, pero protegida bajo llave.
Mientras que la anonimización borra el rastro al origen de los datos de forma permanente (aunque ningún método es 100% infalible).
Con la seudonimización, los datos se pueden poner a disposición de personas que deben utilizarlos sin conocer la información personal tras ellos.
Pero se mantiene esa relación personal accesible para aquellas personas que sí necesiten acceder a ellos (y tengan los permisos adecuados).
Anonimización vs. seudonimización, ¿han de cumplir la RGPD?
Depende.
Legalmente, un seudónimo es un identificador.
Representa datos personales asociados a alguien y, como es reversible, esa persona podría ser identificada y asociada con el dato.
Ya que el proceso es reversible y con una clave adecuada puede identificar a la persona, la seudonimización está sometida a mayor protección por la normativa europea RGPD.
En la anonimización los datos dejan de ser datos personales y por ello se entiende que no estarían sometidos a tanta protección legal.
Beneficios de anonimizar y seudonimizar los datos
- Cumplir con la legalidad (RGPD en Europa, por ejemplo).
- Compartir o comercializar con datos tanto internamente como con compañías externas o proveedores de servicios tecnológicos, sin comprometer la confidencialidad de los datos ni la legalidad.
- Obtener datos de documentos y bases de datos de terceros para tratamiento estadístico o para entrenamiento de algoritmos con machine learning, sin perder el valor de los datos.
- En el sector público, para poder cumplir con el principio de transparencia, y compartir la información anonimizada.
- Como capa extra de ciberseguridad. Cada vez más empresas trabajan en cloud, generan y almacenan datos y, por tanto, pueden ser objeto de ciberataques. Seudonimizar los datos añade una capa extra de seguridad en la nube y puede disuadir a un hacker de provocar un ataque en esta empresa, frente a otra que se lo ponga más fácil.
- Cambiar la titularidad del dato y poder seguir utilizándolo, incluso aunque el cliente se dé de baja o para comercializar con ellos sin posibilidad de identificar a la persona originaria del mismo. Al seudonimizar el dato y eliminar la vinculación con el original, el seudónimo ya no está sujeto a la misma regulación de protección de datos personales y por tanto se podría seguir utilizando para hacer profiling o comercializar con información relevante para las empresas.
Nymiz, la mejor herramienta de anonimización y seudonimización de datos
Nymiz es una de las mejores herramientas de seudonimización y anonimización de datos para empresas, como mínimo, para cumplir con lo establecido en la legislación de protección de datos.
Pero, además, con esta herramienta y de forma automática se pueden compartir y explotar los datos con valor para el negocio, evitando posibles amenazas para la ciberseguridad de los mismos.
¿Por qué nos gusta nymiz para la seudonimización de datos?
Esta herramienta dispone de algunas funcionalidades que la hacen top:
- Cuenta con algoritmos de Machine Learning y procesamiento de lenguaje natural para optimizar continuamente el alcance del servicio y la fiabilidad en la seudonimización de los datos.
- Cuenta con versión cloud o local, para poder tener los datos protegidos en cualquier entorno que utilice la compañía internamente o con terceros.
- Plataforma preparada para seudonimizar datos estructurados en bases de datos y datos no estructurados como documentos Word, PowerPoint, PDF o correo electrónico
- Reconocimiento multi-idioma en español e inglés, y preparando nuevos idiomas para futuras updates.
Las 4 técnicas de seudonimización más utilizadas
Técnica de seudonimización #1: clave secreta o clave de borrado de claves
Es como poner una barrera entre el seudónimo y el dato original, que solo se puede abrir con una llave. El seudónimo se puede volver a conectar con el dato original para re-identificarlo, pero solo si se posee esa clave.
Si la clave se destruye, los datos seudonimizados quedarán desconectados de los datos personales originales para siempre, pero no se borrarán.
Técnica de seudonimización #2: Función hash
Una función“hash” es un algoritmo matemático que transforma una serie de datos en una nueva serie de caracteres.
Por ejemplo, podemos utilizar una función hash para convertir nuestra marca OpenSistemas en una serie de caracteres que no tengan nada que ver: 1L/GXW+Ep1wKdzdtw7rModHkTrvJIppM7wli70HZ60A=
Como ves, una vez que se ha sustituido, esa información no significa nada. Para su lectura se necesita la información adicional que permite decodificarla. Si no se posee esa información adicional, no se puede revelar el dato original.
Técnica de seudonimización #3: Función con clave almacenada
Es un tipo de función hash que además utiliza una clave adicional para acceder a los datos encriptados.
Técnica de seudonimización #4: Descomposición en tokens
Se intercambia un número aleatorio por un conjunto de datos o tokens, que no sigan una secuencia o lógica matemática reproducible.
Ejemplos de seudonimización y anonimización de datos
Por ejemplo, existen muchos estudios clínicos en los que se recoge información de los “sujetos”, como su grupo demográfico, género, características de salud…
Pero en el estudio, se ponen todos juntos y se extraen conclusiones generales. En esos porcentajes de personas que aplican a tal conclusión o tal otra, no se identifica de ninguna manera a los sujetos de estudio.
Por tanto, estos datos son considerados anónimos.
Ahora pensemos en un ejemplo de datos seudonimizados.
Un caso muy común se da en el mundo fintech, cuando se necesitan extraer grupos de clientes muy concretos en base a su comportamiento (clusters), para ofrecerles productos hiper-personalizados y favorecer más la compra.
Un marketing data analyst o un data engineer puede tener que identificar estos grupos de audiencias entre los clientes, sin acceder a sus nombres asociados a sus cuentas, transacciones etc.
Si se sustituyen los nombres de los clientes por un código o una serie numérica, se podrían seguir identificando estos comportamientos comunes sin comprometer la identidad de las personas que hay detrás.
5 Errores frecuentes sobre seudonimización y anonimización de datos
La RGPD reconoce algunos errores comunes en los conceptos de anonimización y seudonimización que tendrás que conocer si necesitas utilizar estas técnicas o explicarlas en un entorno laboral.
Error #1. Pensar que un conjunto de datos seudonimizado es anónimo
En la seudonimización, los datos originales y los cifrados siguen vinculados, pero entre ellos se coloca una “llave”. Quien posea esa clave, puede volver a vincular los datos seudonimizados con los datos originales. En el caso de la anonimización, esta relación entre el dato original y el cifrado se destruye y no se pueden volver a vincular.
Error #2. Usar las mismas claves de descifrado
Es muy peligroso usar las mismas claves o claves rotatorias, tanto en bases de datos diferentes como entre conjuntos de datos. Es vital utilizar claves secretas únicas para que si una de las bases o conjuntos de datos se ve comprometida, este riesgo de ciberseguridad no se extienda al resto.
Error #3. Almacenar la clave secreta junto a los datos seudonimizados
Si la clave secreta se almacena junto con los datos seudonimizados, un atacante podría llegar a vincularlos con el atributo original sin mucha dificultad.
Es importante mantener separados la clave de seguridad y los datos seudonimizados para que no sea fácil acceder a ambos a la vez.
Error #4. La anonimización hace completamente imposible la reidentificación
Aunque el objetivo del proceso de anonimización es conseguir que los datos sean completamente inidentificables, el riesgo de reidentificación cero no existe.
Siempre se debe tener en cuenta ese riesgo residual, para seguir aplicando las medidas de seguridad correspondientes, especialmente a medida que se desarrollan nuevas tecnologías y se sofistican los ciberataques.
Error #5. La anonimización y seudonimización hacen que los datos sean inútiles
Si bien es cierto que hay usos para los que los datos deben ser personales, podemos igualmente obtener muchísimos beneficios de datos seudonimizados o anonimizados.
En el ejemplo anterior, vimos cómo podemos obtener datos de comportamiento de audiencia para hiper-segmentada (clusters) e impactar con productos muy personalizados, sin necesidad de conocer sus nombres y apellidos.
Es el responsable del tratamiento de los datos el que decidirá si el fin para el que se requieren puede alcanzarse al anonimizarlos o, por el contrario, es necesario acudir a una técnica de seudonimización.