Gobernar los datos para gobernar la inteligencia artificial

La publicación el viernes 12 de julio de 2024 del Reglamento de Inteligencia Artificial (RIA o AIA en sus siglas en inglés) abre una nueva etapa en el marco regulatorio europeo y global. La norma se caracteriza por tratar de conjugar dos almas. De un lado se trata de asegurar que la tecnología no genere riesgos sistémicos para la democracia, la garantía de nuestros derechos y el ecosistema socioeconómico en su conjunto. De otro lado, se busca un enfoque orientado al desarrollo de producto de modo que responda a los altos estándares de fiabilidad, seguridad y cumplimiento normativo definidos por la Unión Europea.

Ámbito de aplicación de la norma

La norma permite diferenciar entre sistemas de bajo y medio riesgo, sistemas de alto riesgo y modelos de IA de uso general. Para calificar los sistemas, el RIA define criterios relacionados con el sector regulado por la Unión Europea (Anexo I) y define el contenido y alcance de aquellos sistemas que por su naturaleza y finalidad podrían generar riesgos (Anexo III). Los modelos son altamente dependientes del volumen de datos, sus capacidades y la carga operacional.

El RIA solo afecta a los dos últimos casos: sistemas de alto riesgo y modelos de IA de uso general. Los sistemas de alto riesgo exigen la evaluación de la conformidad a través de organismos notificados. Estos son entidades ante las que se presentan evidencias de que el desarrollo se ajusta al RIA. En este sentido, los modelos están sujetos a fórmulas de control por la Comisión que aseguran la prevención de riesgos sistémicos. No obstante, estamos ante un marco normativo flexible que favorece la investigación, relajando su aplicación en entornos de experimentación, así como mediante el despliegue de sandboxes para el desarrollo.

La norma establece una serie de “requisitos de los sistemas de IA de alto riesgo” (sección segunda del capítulo tercero) que deberían constituir un marco de referencia para el desarrollo de cualquier sistema e inspirar los códigos de buenas prácticas, normas técnicas y esquemas de certificación. Entre ellos, ocupa un lugar central el artículo 10 sobre “datos y gobernanza de datos”. Este proporciona indicaciones muy precisas sobre las condiciones de diseño de los sistemas de IA, particularmente cuando supongan tratar datos personales o cuando se proyecten sobre personas físicas.

Esta gobernanza debería considerarse por quienes proporcionen la infraestructura básica y/o los conjuntos de datos, gestionen espacios de datos o los llamados Digital Innovation Hubs, que ofrezcan servicios de soporte. En nuestro ecosistema, caracterizado por una alta prevalencia de PYMEs y/o equipos de investigación, la gobernanza de datos se proyecta sobre la calidad, seguridad y fiabilidad en sus acciones y resultados. Por ello es necesario asegurar los valores que el RIA impone a los conjuntos de datos de entrenamiento, validación y prueba en sistemas de alto riesgo y, en su caso, cuando se empleen técnicas que impliquen el entrenamiento de modelos de IA.

Estos valores pueden alinearse con los principios del artículo 5 del Reglamento General de Protección de Datos (RGPD) y los enriquecen y complementan. A ellos se añade el enfoque de riesgo y la protección de datos desde el diseño y por defecto. Relacionar unos y otros constituye un ejercicio sin duda interesante.

Garantizar el origen legítimo de los datos: Lealtad y licitud

Junto a la referencia común a la cadena de valor asociada a los datos, hay que referirse a una cadena de custodia que garantice la legalidad en los procesos de recogida de datos. El origen de los datos, particularmente en el caso de los datos personales, debe ser lícito, legítimo y su uso coherente con la finalidad original de su recogida. Por ello es indispensable una adecuada catalogación de los conjuntos de datos en origen que asegure una correcta descripción de su legitimidad y condiciones de uso.

Esta es una cuestión que afecta a los entornos de open data, a los organismos y servicios de acceso a datos detallados en el Reglamento de gobernanza de datos (DGA en sus siglas en inglés) o el Espacio Europeo de Datos de Salud (EHDS) y a buen seguro inspirará futuras regulaciones. Lo usual será combinar fuentes externas de datos con la información que maneja la PYME.

Minimización de los datos, exactitud y limitación de finalidad

El RIA ordena, de una parte, realizar una evaluación de la disponibilidad, la cantidad y la adecuación de los conjuntos de datos necesarios. De otra, exige que los conjuntos de datos de entrenamiento, validación y prueba sean pertinentes, suficientemente representativos y posean las propiedades estadísticas adecuadas. Esta tarea es muy relevante para los derechos de las personas o los colectivos afectados por el sistema. Además, en la mayor medida posible, carecerán de errores y estarán completos en vista de su finalidad prevista. RIA predica estas propiedades para cada conjunto de datos individualmente o para una combinación de estos.

Para la consecución de tales objetivos resulta necesario asegurar el despliegue de las técnicas adecuadas:

Realizar las operaciones de tratamiento oportunas para la preparación de los datos, como la anotación, el etiquetado, la depuración, la actualización, el enriquecimiento y la agregación.
Formular supuestos, en particular en lo que respecta a la información que se supone que miden y representan los datos. O, dicho en un lenguaje más coloquial, definir los casos de uso.
Tener en cuenta, en la medida necesaria para la finalidad prevista, las características o elementos particulares del entorno geográfico, contextual, conductual o funcional específico en el que está previsto que se utilice el sistema de IA de alto riesgo.

Gestionar el riesgo: evitar el sesgo

En el ámbito de la gobernanza de los datos se atribuye un papel esencial a la evitación del sesgo cuando pueda generar riesgos para la salud y la seguridad de las personas, afectar negativamente a los derechos fundamentales o dar lugar a algún tipo de discriminación prohibida por el Derecho de la Unión, especialmente cuando las salidas de datos influyan en las informaciones de entrada de futuras operaciones. Para ello procede adoptar las medidas adecuadas para detectar, prevenir y mitigar posibles sesgos detectados.

El RIA habilita excepcionalmente el tratamiento de categorías especiales de datos personales siempre que ofrezcan las garantías adecuadas en relación con los derechos y las libertades fundamentales de las personas físicas. Pero impone condiciones adicionales:

que el tratamiento de otros datos, como los sintéticos o los anonimizados, no permita efectuar de forma efectiva la detección y corrección de sesgos;
que las categorías especiales de datos personales estén sujetas a limitaciones técnicas relativas a la reutilización de los datos personales y a medidas punteras en materia de seguridad y protección de la intimidad, incluida la seudonimización ;
que las categorías especiales de datos personales estén sujetas a medidas para garantizar que los datos personales tratados estén asegurados, protegidos y sujetos a garantías adecuadas, incluidos controles estrictos y documentación del acceso, a fin de evitar el uso indebido y garantizar que solo las personas autorizadas tengan acceso a dichos datos personales con obligaciones de confidencialidad adecuadas;
que las categorías especiales de datos personales no se transmitan ni transfieran a terceros y que estos no puedan acceder de ningún otro modo a ellos;
que las categorías especiales de datos personales se eliminen una vez que se haya corregido el sesgo o los datos personales hayan llegado al final de su período de conservación, si esta fecha es anterior;
que los registros de las actividades de tratamiento con arreglo a los Reglamentos (UE) 2016/679 y (UE) 2018/1725 y la Directiva (UE) 2016/680 incluyan las razones por las que el tratamiento de categorías especiales de datos personales era estrictamente necesario para detectar y corregir sesgos, y por las que ese objetivo no podía alcanzarse mediante el tratamiento de otros datos.

Las previsiones normativas resultan extraordinariamente interesantes. RGPD, DGA o EHDS apuestan por tratar datos anonimizados. RIA establece una excepción en aquellos casos en los que se generan conjuntos de datos inadecuados o de baja calidad desde el punto de vista del sesgo.

Tanto los desarrolladores individuales, como los espacios de datos y los servicios de intermediación que proporcionen conjuntos de datos y/o plataformas para el desarrollo deben ser particularmente diligentes a la hora de definir su seguridad. Esta previsión es coherente con la exigencia de disponer de espacios seguros de procesamiento en EHDS, implica una apuesta por estándares certificables en seguridad, públicos o privados, y aconseja una relectura de la disposición adicional decimoséptima sobre tratamientos de datos en nuestra Ley orgánica de protección de datos en materia de seudonimización, en la medida en la que añade garantías éticas y jurídicas a las propiamente técnicas. Además, se subraya la necesidad de garantizar una adecuada trazabilidad en los usos. Adicionalmente será necesario integrar en el registro de actividades de tratamiento una mención específica a este tipo de usos y a su justificación.

Aplicar las lecciones aprendidas desde la protección de datos, desde el diseño y por defecto

El artículo 10 de RIA obliga a documentar las decisiones pertinentes relativas al diseño y a detectar lagunas o deficiencias pertinentes en los datos que impidan el cumplimiento del RIA y la forma de subsanarlas. En resumen, no basta con garantizar la gobernanza de datos, también es necesario proporcionar evidencia documental y mantener una actitud proactiva y vigilante durante todo el ciclo de vida de los sistemas de información.

Estas dos obligaciones integran la clave de bóveda del sistema. Y su lectura debería ser incluso mucho más amplia en la dimensión jurídica. Las lecciones aprendidas en el RGPD enseñan que existe una doble condición para la responsabilidad proactiva y la garantía de los derechos fundamentales. La primera es intrínseca y material: el despliegue de la ingeniería de la privacidad al servicio de la protección de datos desde el diseño y por defecto asegura el cumplimiento del RGPD. La segunda es contextual: los tratamientos de datos personales no se dan en el vacío, sino en un contexto amplio y complejo regulado por otros sectores del Ordenamiento.

La gobernanza de datos opera estructuralmente desde los cimientos a la bóveda de los sistemas de información basados en IA. Asegurar que exista, sea adecuada y funcional es esencial. Así lo ha entendido la Estrategia de Inteligencia Artificial 2024 del Gobierno de España que trata de dotar al país de esas palancas que dinamicen nuestro desarrollo.

RIA plantea un salto cualitativo y subraya el enfoque funcional desde el que deben leerse los principios de protección de datos subrayando la dimensión poblacional. Ello obliga a repensar las condiciones en las que se ha venido cumpliendo el RGPD en la Unión Europea. Urge abandonar los modelos basados en plantillas que la empresa de consultoría copia-pega. Es evidente que las listas de control y la estandarización son imprescindibles. Sin embargo, su efectividad es altamente dependiente del ajuste fino. Y ello obliga a apelar particularmente a los profesionales que soportan el cumplimiento de este objetivo a dedicar sus mayores esfuerzos para dotar de sentido profundo al cumplimiento del Reglamento de Inteligencia Artificial.

Fuente original de la noticia (Abre en nueva ventana)