As tecnoloxías PET son un conxunto de medidas técnicas que utilizan diversos enfoques para a protección da privacidade. O acrónimo PET vén dos termos en inglés “Privacy Enhancing Technologies” que se poden traducir como “tecnoloxías de mellora da privacidade”.
De acordo con a Axencia da Unión Europea para a Ciberseguridade (ENISA) este tipo de sistemas protexe a privacidade mediante:
- A eliminación ou redución de datos persoais.
- Evitando o procesamento innecesario e/ou non desexado de datos persoais.
Todo iso, sen perder a funcionalidade do sistema de información. É dicir, grazas a elas pódese utilizar datos que doutra maneira permanecerían sen explotar, xa que limita os riscos de revelación de datos persoais ou protexidos, cumprindo coa lexislación vixente.
Relación entre utilidade e privacidade en datos protexidos
Para comprender a importancia das tecnoloxías PET, é necesario abordar a relación que existe entre utilidade e privacidade do dato. A protección de datos de carácter persoal sempre supón perda de utilidade, ben porque limita o uso dos datos ou porque implica someterlles a tantas transformacións para evitar identificacións que pervierte os resultados. A seguinte gráfica mostra como a maior privacidade, menor é a utilidade dos datos.
As técnicas PET permiten alcanzar un compromiso entre privacidade e utilidade máis favorable. No entanto, hai que ter en conta que sempre existirá certa limitación da utilidade cando explotamos datos protexidos.
Técnicas PET máis populares
Para aumentar a utilidade e poder explotar datos protexidos limitando os riscos, é necesario aplicar unha serie de técnicas PET. O seguinte esquema, recolle algunhas das principais:
Como veremos a seguir, estas técnicas abordan distintas fases do ciclo de vida dos datos.
-
Antes da explotación dos datos: anonimización
A anonimización consiste en transformar conxuntos de datos de carácter privado para que non se poida identificar a ningunha persoa. Desta forma, xa non lles aplica o Regulamento Xeral de Protección de Datos (RGPD).
É importante garantir que a anonimización realizouse de forma efectiva, evitando riscos que permitan a reidentificación a través de técnicas como a vinculación (identificación dun individuo mediante o cruzado de datos), a inferencia (dedución de atributos adicionais en un dataset), a singularización (identificación de individuos a partir dos valores dun rexistro) ou a composición (perda de privacidade acumulada debida á aplicación reiterada de tratamentos). Para iso, é recomendable combinar varias técnicas, as cales se poden agrupar en tres grandes familias:
- Aleatorización: supón modificar os datos orixinais ao introducir un elemento de azar. Isto lógrase engadindo ruído ou variacións aleatorias aos datos, de maneira que se preserven patróns xerais e tendencias, pero fágase máis difícil a identificación de individuos.
- Xeneralización: consiste en substituír ou ocultar valores específicos dun conxunto de datos por valores máis amplos ou menos precisos. Por exemplo, en lugar de rexistrar a idade exacta dunha persoa, poderíase utilizar un rango de idades (como 35-44 anos).
- Supresión: implica eliminar completamente certos datos do conxunto, especialmente aqueles que poden identificar a unha persoa de maneira directa. É o caso dos nomes, direccións, números de identificación, etc.
Podes profundar sobre este tres enfoques xerais e as diversas técnicas que os integran na guía práctica “ Introdución á anonimización de datos: técnicas e casos prácticos ”. Tamén recomendamos a lectura do artigo malentendidos comúns na anonimización de datos .
2. Protección de datos en uso
Neste apartado abórdanse técnicas que salvagardan a privacidade dos datos durante a aplicación de tratamentos de explotación.
- Cifrado homomórfico: es una técnica de criptografía que permite realizar operaciones matemáticas sobre datos cifrados sin necesidad de descifrarlos primero. Por ejemplo, un cifrado será homomórfico si se cumple que, si se cifran dos números y se realiza una suma en su forma cifrada, el resultado cifrado, al ser descifrado, será igual a la suma de los números originales.
- Computación Segura Multipartita (Secure Multiparty Computation ou SMPC): é un enfoque que permite que múltiples partes colaboren para realizar cálculos sobre datos privados sen revelar a súa información aos demais participantes. É dicir, permite que diferentes entidades realicen operacións conxuntas e obteñan un resultado común, mentres manteñen a confidencialidade dos seus datos individuais.
- Aprendizaxe distribuída: tradicionalmente, os modelos de machine learning aprenden de forma centralizada, é dicir, requiren reunir todos os datos de adestramento procedentes de múltiples fontes nun único conxunto de datos a partir do cal un servidor central elabora o modelo que se desexa. En o caso da aprendizaxe distribuída, os datos non se concentran nun só lugar, senón que permanecen en diferentes localizacións, dispositivos ou servidores. En lugar de trasladar grandes cantidades de datos a un servidor central para o seu procesamento, a aprendizaxe distribuída permite que os modelos de machine learning adéstrense en cada unha destas localizacións, integrando e combinando os resultados parciais para obter un modelo final.
- Computación confidencial e contornas de computación de confianza (Trusted Execution Environments ou TEE): a computación confidencial refírese a un conxunto de técnicas e tecnoloxías que permiten procesar datos de maneira segura dentro de contornas de hardware protexidos e certificados, coñecidos como contornas de computación de confianza.
- Datos sintéticos: son datos xerados artificialmente que imitan as características e patróns estatísticos de datos reais sen representar a persoas ou situacións específicas. Reproducen as propiedades relevantes dos datos reais, como distribución, correlacións e tendencias, pero sen información que permita identificar a individuos ou casos específicos. Podes aprender máis sobre este tipo de datos no informe Datos sintéticos: Que son e para que se usan? .
3. Acceso, comunicación e almacenamento
Las técnicas PET no solo abarcan la explotación de los datos. Entre ellas también encontramos procedimientos dirigidos a asegurar el acceso a recursos, la comunicación entre entidades y el almacenamiento de datos, garantizando siempre la confidencialidad de los participantes. Algunos ejemplos son:
Técnicas de control de acceso
- Recuperación Privada de Información (Private information retrieval ou PIR): é unha técnica criptográfica que permite a un usuario consultar unha base de datos ou servidor sen que este último poida saber que información está a buscar o usuario. É dicir, asegura que o servidor non coñeza o contido da consulta, preservando así a privacidade do usuario.
- Credenciales Basadas en Atributos con Privacidade (Privacy-Attribute Based Credentials ou P-ABC): é unha tecnoloxía de autenticación que permite aos usuarios demostrar certos atributos ou características persoais (como a maioría de idade ou a cidadanía) sen revelar a súa identidade. En lugar de mostrar todos os seus datos persoais, o usuario presenta só aqueles atributos necesarios para cumprir cos requisitos da autenticación ou autorización, mantendo así a súa privacidade.
- Proba de coñecemento cero (Zero-Knowledge Proof ou ZKP): é un método criptográfico que permite a unha parte demostrar a outra que posúe certa información ou coñecemento (como un contrasinal) sen revelar o propio contido dese coñecemento. Este concepto é fundamental no ámbito da criptografía e a seguridade da información, xa que permite a verificación de información sen a necesidade de expor datos sensibles.
Técnicas de comunicacións
- Cifrado extremo a extremo (End to End Encryption ou E2EE): esta técnica protexe os datos mentres se transmiten entre dous ou máis dispositivos, de forma que só os participantes autorizados na comunicación poden acceder á información. Os datos cífranse na orixe e permanecen cifrados durante todo o traxecto ata que chegan ao destinatario. Isto significa que, durante o proceso, ningún individuo ou organización intermediaria (como provedores de internet, servidores de aplicacións ou provedores de servizos na nube) pode acceder ou descifrar a información. Unha vez que chegan a destino, o destinatario é capaz de descifralos de novo.
- Protección de información de Red (Proxy & Onion Routing): un proxy es un servidor intermediario entre el dispositivo de un usuario y el destino de la conexión en internet. Cuando alguien utiliza un proxy, su tráfico se dirige primero al servidor proxy, que luego reenvía las solicitudes al destino final, permitiendo el filtrado de contenidos o el cambio de direcciones IP. Por su parte, el método Onion Routing protege el tráfico en internet a través de una red distribuida de nodos. Cuando un usuario envía información usando Onion Routing, su tráfico se cifra varias veces y se envía a través de múltiples nodos, o "capas" (de ahí el nombre "onion", que significa "cebolla" en inglés).
Técnicas de almacenamento
- Almacenamento garante da confidencialidade (Privacy Preserving Storage ou PPS): o seu obxectivo é protexer a confidencialidade dos datos en repouso e informar os custodios dos datos dunha posible brecha de seguridade, utilizando técnicas de cifrado, acceso controlado, auditoría e monitoreo, etc.
Estos son solo algunos ejemplos de tecnologías PET, pero hay más familias y subfamilias. Gracias a ellas, contamos con herramientas que nos permiten extraer valor de los datos de forma segura, garantizando la privacidad de los usuarios. Datos que pueden ser de gran utilidad en múltiples sectores, como la salud, el cuidado del medio ambiente o la economía.