As tecnoloxías PET son un conxunto de medidas técnicas que utilizan diversos enfoques para a protección da privacidade. O acrónimo PET vén dos termos en inglés “Privacy Enhancing Technologies” que se poden traducir como “tecnoloxías de mellora da privacidade”.
De acordo con a Axencia da Unión Europea para a Ciberseguridade (ENISA) este tipo de sistemas protexe a privacidade mediante:
- A eliminación ou redución de datos persoais.
- Evitando o procesamento innecesario e/ou non desexado de datos persoais.
Todo iso, sen perder a funcionalidade do sistema de información. É dicir, grazas a elas pódese utilizar datos que doutra maneira permanecerían sen explotar, xa que limita os riscos de revelación de datos persoais ou protexidos, cumprindo coa lexislación vixente.
Relación entre utilidade e privacidade en datos protexidos
Para comprender a importancia das tecnoloxías PET, é necesario abordar a relación que existe entre utilidade e privacidade do dato. A protección de datos de carácter persoal sempre supón perda de utilidade, ben porque limita o uso dos datos ou porque implica someterlles a tantas transformacións para evitar identificacións que pervierte os resultados. A seguinte gráfica mostra como a maior privacidade, menor é a utilidade dos datos.
As técnicas PET permiten alcanzar un compromiso entre privacidade e utilidade máis favorable. No entanto, hai que ter en conta que sempre existirá certa limitación da utilidade cando explotamos datos protexidos.
Técnicas PET máis populares
Para aumentar a utilidade e poder explotar datos protexidos limitando os riscos, é necesario aplicar unha serie de técnicas PET. O seguinte esquema, recolle algunhas das principais:
Como veremos a seguir, estas técnicas abordan distintas fases do ciclo de vida dos datos.
-
Antes da explotación dos datos: anonimización
A anonimización consiste en transformar conxuntos de datos de carácter privado para que non se poida identificar a ningunha persoa. Desta forma, xa non lles aplica o Regulamento Xeral de Protección de Datos (RGPD).
É importante garantir que a anonimización realizouse de forma efectiva, evitando riscos que permitan a reidentificación a través de técnicas como a vinculación (identificación dun individuo mediante o cruzado de datos), a inferencia (dedución de atributos adicionais en un dataset), a singularización (identificación de individuos a partir dos valores dun rexistro) ou a composición (perda de privacidade acumulada debida á aplicación reiterada de tratamentos). Para iso, é recomendable combinar varias técnicas, as cales se poden agrupar en tres grandes familias:
- Aleatorización: supón modificar os datos orixinais ao introducir un elemento de azar. Isto lógrase engadindo ruído ou variacións aleatorias aos datos, de maneira que se preserven patróns xerais e tendencias, pero fágase máis difícil a identificación de individuos.
- Xeneralización: consiste en substituír ou ocultar valores específicos dun conxunto de datos por valores máis amplos ou menos precisos. Por exemplo, en lugar de rexistrar a idade exacta dunha persoa, poderíase utilizar un rango de idades (como 35-44 anos).
- Supresión: implica eliminar completamente ciertos datos del conjunto, especialmente aquellos que pueden identificar a una persona de manera directa. Es el caso de los nombres, direcciones, números de identificación, etc.
Podes profundar sobre este tres enfoques xerais e as diversas técnicas que os integran na guía práctica “ Introdución á anonimización de datos: técnicas e casos prácticos ”. Tamén recomendamos a lectura do artigo malentendidos comúns na anonimización de datos .
2. Protección de datos en uso
Neste apartado abórdanse técnicas que salvagardan a privacidade dos datos durante a aplicación de tratamentos de explotación.
- Cifrado homomórfico: é unha técnica de criptografía que permite realizar operacións matemáticas sobre datos cifrados sen necesidade de descifralos primeiro. Por exemplo, un cifrado será homomórfico se se cumpre que, se se cifran dous números e realízase unha suma na súa forma cifrada, o resultado cifrado, ao ser descifrado, será igual á suma dos números orixinais.
- Computación Segura Multipartita (Secure Multiparty Computation ou SMPC): é un enfoque que permite que múltiples partes colaboren para realizar cálculos sobre datos privados sen revelar a súa información aos demais participantes. É dicir, permite que diferentes entidades realicen operacións conxuntas e obteñan un resultado común, mentres manteñen a confidencialidade dos seus datos individuais.
- Aprendizaje distribuido: tradicionalmente, los modelos de machine learning aprenden de forma centralizada, es decir, requieren reunir todos los datos de entrenamiento procedentes de múltiples fuentes en un único conjunto de datos a partir del cual un servidor central elabora el modelo que se desea. En el caso del aprendizaje distribuido, los datos no se concentran en un solo lugar, sino que permanecen en diferentes ubicaciones, dispositivos o servidores. En lugar de trasladar grandes cantidades de datos a un servidor central para su procesamiento, el aprendizaje distribuido permite que los modelos de machine learning se entrenen en cada una de estas ubicaciones, integrando y combinando los resultados parciales para obtener un modelo final.
- Computación confidencial e contornas de computación de confianza (Trusted Execution Environments ou TEE): a computación confidencial refírese a un conxunto de técnicas e tecnoloxías que permiten procesar datos de maneira segura dentro de contornas de hardware protexidos e certificados, coñecidos como contornas de computación de confianza.
- Datos sintéticos: son datos xerados artificialmente que imitan as características e patróns estatísticos de datos reais sen representar a persoas ou situacións específicas. Reproducen as propiedades relevantes dos datos reais, como distribución, correlacións e tendencias, pero sen información que permita identificar a individuos ou casos específicos. Podes aprender máis sobre este tipo de datos no informe Datos sintéticos: Que son e para que se usan? .
3. Acceso, comunicación e almacenamento
As técnicas PET non só abarcan a explotación dos datos. Entre elas tamén atopamos procedementos dirixidos a asegurar o acceso a recursos, a comunicación entre entidades e o almacenamento de datos, garantindo sempre a confidencialidade dos participantes. Algúns exemplos son:
Técnicas de control de acceso
- Recuperación Privada de Información (Private information retrieval ou PIR): é unha técnica criptográfica que permite a un usuario consultar unha base de datos ou servidor sen que este último poida saber que información está a buscar o usuario. É dicir, asegura que o servidor non coñeza o contido da consulta, preservando así a privacidade do usuario.
- Credenciales Basadas en Atributos con Privacidade (Privacy-Attribute Based Credentials ou P-ABC): é unha tecnoloxía de autenticación que permite aos usuarios demostrar certos atributos ou características persoais (como a maioría de idade ou a cidadanía) sen revelar a súa identidade. En lugar de mostrar todos os seus datos persoais, o usuario presenta só aqueles atributos necesarios para cumprir cos requisitos da autenticación ou autorización, mantendo así a súa privacidade.
- Proba de coñecemento cero (Zero-Knowledge Proof ou ZKP): é un método criptográfico que permite a unha parte demostrar a outra que posúe certa información ou coñecemento (como un contrasinal) sen revelar o propio contido dese coñecemento. Este concepto é fundamental no ámbito da criptografía e a seguridade da información, xa que permite a verificación de información sen a necesidade de expor datos sensibles.
Técnicas de comunicacións
- Cifrado extremo a extremo (End to End Encryption ou E2EE): esta técnica protexe os datos mentres se transmiten entre dous ou máis dispositivos, de forma que só os participantes autorizados na comunicación poden acceder á información. Os datos cífranse na orixe e permanecen cifrados durante todo o traxecto ata que chegan ao destinatario. Isto significa que, durante o proceso, ningún individuo ou organización intermediaria (como provedores de internet, servidores de aplicacións ou provedores de servizos na nube) pode acceder ou descifrar a información. Unha vez que chegan a destino, o destinatario é capaz de descifralos de novo.
- Protección de información de Rede (Proxy & Onion Routing): un proxy é un servidor intermediario entre o dispositivo dun usuario e o destino da conexión en internet. Cando alguén utiliza un proxy, o seu tráfico diríxese primeiro ao servidor proxy, que logo reenvía as solicitudes ao destino final, permitindo o filtrado de contidos ou o cambio de direccións IP. Pola súa banda, o método Onion Routing protexe o tráfico en internet a través dunha rede distribuída de nodos. Cando un usuario envía información usando Onion Routing, o seu tráfico cífrase varias veces e envíase a través de múltiples nodos, ou "capas" (de aí o nome "onion", que significa "cebola" en inglés).
Técnicas de almacenamento
- Almacenamento garante da confidencialidade (Privacy Preserving Storage ou PPS): o seu obxectivo é protexer a confidencialidade dos datos en repouso e informar os custodios dos datos dunha posible brecha de seguridade, utilizando técnicas de cifrado, acceso controlado, auditoría e monitoreo, etc.
Estes son só algúns exemplos de tecnoloxías PET, pero hai máis familias e subfamilias. Grazas a elas, contamos con ferramentas que nos permiten extraer valor dos datos de forma segura, garantindo a privacidade dos usuarios. Datos que poden ser de gran utilidade en múltiples sectores, como a saúde, o coidado do medio ambiente ou a economía.