Gobernar los datos para gobernar la inteligencia artificial

La publicació el divendres 12 de juliol de 2024 de el Reglament d'Intel·ligència Artificial (RIA o AIA en les seues sigles en anglés) obri una nova etapa en el marc regulatori europeu i global. La norma es caracteritza per tractar de conjugar dos ànimes. De un costat es tracta d'assegurar que la tecnologia no genere riscos sistèmics per a la democràcia, la garantia dels nostres drets i l'ecosistema socioeconòmic en el seu conjunt. D'un altre costat, es busca un enfocament orientat al desenvolupament de producte de manera que responga als alts estàndards de fiabilitat, seguretat i compliment normatiu definits per la Unió Europea.

Àmbit d'aplicació de la norma

La norma permet diferenciar entre sistemes de baix i mig risc, sistemes d'alt risc i models de IA d'ús general. Per a qualificar els sistemes, el RIA definix criteris relacionats amb el sector regulat per la Unió Europea (Annex I) i definix el contingut i abast d'aquells sistemes que per la seua naturalesa i finalitat podrien generar riscos (Annex III). Els models són altament depenents del volum de dades, les seues capacitats i la càrrega operacional.

El RIA solament afecta als dos últims casos: sistemes d'alt risc i models de IA d'ús general. Els sistemes d'alt risc exigixen l'avaluació de la conformitat a través d'organismes notificats. Estos són entitats davant les quals es presenten evidències que el desenvolupament s'ajusta al RIA. En este sentit, els models estan subjectes a fórmules de control per la Comissió que asseguren la prevenció de riscos sistèmics. No obstant açò, estem davant un marc normatiu flexible que afavorix la investigació, relaxant la seua aplicació en entorns d'experimentació, així com mitjançant el desplegament de sandboxes per al desenvolupament.

La norma establix una sèrie de “requisits dels sistemes de IA d'alt risc” (secció segona del capítol tercer) que haurien de constituir un marc de referència per al desenvolupament de qualsevol sistema i inspirar els codis de bones pràctiques, normes tècniques i esquemes de certificació. Entre ells, ocupa un lloc central l'article 10 sobre “dades i governança de dades”. Est proporciona indicacions molt precises sobre les condicions de disseny dels sistemes de IA, particularment quan suposen tractar dades personals o quan es projecten sobre persones físiques.

Esta governança hauria de considerar-se per els qui proporcionen la infraestructura bàsica i/o els conjunts de dades, gestionen espais de dades o els anomenats Digital Innovation Hubs, que oferisquen servicis de suport. En el nostre ecosistema, caracteritzat per una alta prevalença de PYMEs i/o equips d'investigació, la governança de dades es projecta sobre la qualitat, seguretat i fiabilitat en les seues accions i resultats. Per açò és necessari assegurar els valors que el RIA imposa als conjunts de dades d'entrenament, validació i prova en sistemes d'alt risc i, si escau, quan s'empren tècniques que impliquen l'entrenament de models de IA.

Estos valors poden alinear-se amb els principis de l'article 5 de el Reglament General de Protecció de Dades (RGPD) i els enriquixen i complementen. A ells s'afig l'enfocament de risc i la protecció de dades des del disseny i per defecte. Relacionar els uns i els altres constituïx un exercici sens dubte interessant.

Garantir l'origen legítim de les dades: Lealtad i licitud

Al costat de la referència comuna a la cadena de valor associada a les dades, cal referir-se a una cadena de custòdia que garantisca la legalitat en els processos de recollida de dades. L'origen de les dades, particularment en el cas de les dades personals, ha de ser lícit, legítim i el seu ús coherent amb la finalitat original de la seua recollida. Per açò és indispensable una adequada catalogació dels conjunts de dades en origen que assegure una correcta descripció de la seua legitimitat i condicions d'ús.

Esta és una qüestió que afecta als entorns de open data, als organismes i servicis d'accés a dades detallades en el Reglamente de governança de dades (DGA en les seues sigles en anglés) o el Espai Europeu de Dades de Salut (EHDS) i de ben segur inspirarà futures regulacions. L'usual serà combinar fonts externes de dades amb la informació que maneja la PIME.

Minimització de les dades, exactitud i limitació de finalitat

El RIA ordena, d'una part, realitzar una avaluació de la disponibilitat, la quantitat i l'adequació dels conjunts de dades necessàries. D'una altra, exigix que els conjunts de dades d'entrenament, validació i prova siguen pertinents, suficientment representatius i posseïsquen les propietats estadístiques adequades. Esta tasca és molt rellevant per als drets de les persones o els col·lectius afectats pel sistema. A més, en la major mesura possible, mancaran d'errors i estaran complets en vista de la seua finalitat prevista. RIA predica estes propietats per a cada conjunt de dades individualment o per a una combinació d'estos.

Per a la consecució de tals objectius resulta necessari assegurar el desplegament de les tècniques adequades:

Realitzar les operacions de tractament oportunes per a la preparació de les dades, com l'anotació, l'etiquetatge, la depuració, l'actualització, l'enriquiment i l'agregació.
Formular suposats, en particular pel que fa a la informació que se suposa que mesuren i representen les dades. O, dit en un llenguatge més col·loquial, definir els casos d'ús.
Tindre en compte, en la mesura necessària per a la finalitat prevista, les característiques o elements particulars de l'entorn geogràfic, contextual, conductual o funcional específic en el qual està previst que s'utilitze el sistema de IA d'alt risc.

Gestionar el risc: evitar el biaix

En l'àmbit de la governança de les dades s'atribuïx un paper essencial a l'evitació del biaix quan puga generar riscos per a la salut i la seguretat de les persones, afectar negativament als drets fonamentals o donar lloc a algun tipus de discriminació prohibida pel Dret de la Unió, especialment quan les eixides de dades influïsquen en les informacions d'entrada de futures operacions. Per a açò procedix adoptar les mesures adequades per a detectar, previndre i mitigar possibles biaixos detectats.

El RIA habilita excepcionalment el tractament de categories especials de dades personals sempre que oferisquen les garanties adequades en relació amb els drets i les llibertats fonamentals de les persones físiques. Però imposa condicions addicionals:

que el tractament d'altres dades, com els sintètics o els anonimizados, no permeta efectuar de forma efectiva la detecció i correcció de biaixos;
que les categories especials de dades personals estiguen subjectes a limitacions tècniques relatives a la reutilització de les dades personals i a mesures capdavanteres en matèria de seguretat i protecció de la intimitat, inclosa la seudonimización ;
que les categories especials de dades personals estiguen subjectes a mesures per a garantir que les dades personals tractats estiguen assegurats, protegits i subjectes a garanties adequades, inclosos controls estrictes i documentació de l'accés, a fi d'evitar l'ús indegut i garantir que solament les persones autoritzades tinguen accés a aquestes dades personals amb obligacions de confidencialitat adequades;
que les categories especials de dades personals no es transmeten ni transferisquen a tercers i que estos no puguen accedir de cap altra manera a ells;
que les categories especials de dades personals s'eliminen una vegada que s'haja corregit el biaix o les dades personals hagen arribat al final del seu període de conservació, si esta data és anterior;
que els registres de les activitats de tractament conformement als Reglamentos (UE) 2016/679 i (UE) 2018/1725 i la Directiva (UE) 2016/680 incloguen les raons per les quals el tractament de categories especials de dades personals era estrictament necessari per a detectar i corregir biaixos, i per les quals eixe objectiu no podia aconseguir-se mitjançant el tractament d'altres dades.

Les previsions normatives resulten extraordinàriament interessants. RGPD, DGA o EHDS aposten per tractar dades anonimizados. RIA establix una excepció en aquells casos en els quals es generen conjunts de dades inadequades o de baixa qualitat des del punt de vista del biaix.

Tant els desenvolupadors individuals, com els espais de dades i els servicis d'intermediació que proporcionen conjunts de dades i/o plataformes per al desenvolupament han de ser particularment diligents a l'hora de definir la seua seguretat. Esta previsió és coherent amb l'exigència de disposar d'espais segurs de processament en EHDS, implica una aposta per estàndards certificables en seguretat, públics o privats, i aconsella una relectura de la disposició addicional dessetena sobre tractaments de dades en la nostra Llei orgànica de protecció de dades en matèria de seudonimización, en la mesura en la qual afig garanties ètiques i jurídiques a les pròpiament tècniques. A més, se subratlla la necessitat de garantir una adequada traçabilitat en els usos. Addicionalment serà necessari integrar en el registre d'activitats de tractament una menció específica a este tipus d'usos i a la seua justificació.

Aplicar les lliçons apreses des de la protecció de dades, des del disseny i per defecte

L'article 10 de RIA obliga a documentar les decisions pertinents relatives al disseny i a detectar llacunes o deficiències pertinents en les dades que impedisquen el compliment del RIA i la forma d'esmenar-les. En resum, no n'hi ha prou amb garantir la governança de dades, també és necessari proporcionar evidència documental i mantindre una actitud proactiva i vigilant durant tot el cicle de vida dels sistemes d'informació.

Estes dos obligacions integren la clau de volta del sistema. I la seua lectura hauria de ser fins i tot molt més àmplia en la dimensió jurídica. Les lliçons apreses en el RGPD ensenyen que existix una doble condició per a la responsabilitat proactiva i la garantia dels drets fonamentals. La primera és intrínseca i material: el desplegament de l'enginyeria de la privacitat al servici de la protecció de dades des del disseny i per defecte assegura el compliment del RGPD. La segona és contextual: els tractaments de dades personals no es donen en el buit, sinó en un context ampli i complex regulat per altres sectors de l'Ordenament.

La governança de dades opera estructuralment des dels fonaments a la volta dels sistemes d'informació basats en IA. Assegurar que existisca, siga adequada i funcional és essencial. Así ho ha entés la Estratègia d'Intel·ligència Artificial 2024 del Govern d'Espanya que tracta de dotar al país d'eixes palanques que dinamitzen el nostre desenvolupament.

RIA planteja un salt qualitatiu i subratlla l'enfocament funcional des del qual han de llegir-se els principis de protecció de dades subratllant la dimensió poblacional. Açò obliga a repensar les condicions en les quals s'ha vingut complint el RGPD en la Unió Europea. Urgix abandonar els models basats en plantilles que l'empresa de consultoria copia-pega. És evident que les llistes de control i l'estandardització són imprescindibles. No obstant açò, la seua efectivitat és altament depenent de l'ajust fi. I açò obliga a apel·lar particularment als professionals que suporten el compliment d'este objectiu a dedicar els seus majors esforços per a dotar de sentit profund al compliment del Reglament d'Intel·ligència Artificial.

Font original de la notícia (Obri en nova finestra)

Governar les dades per a governar la intel·ligència artificial

Àmbit d'aplicació de la norma

Garantir l'origen legítim de les dades: Lealtad i licitud

Minimització de les dades, exactitud i limitació de finalitat

Gestionar el risc: evitar el biaix

Aplicar les lliçons apreses des de la protecció de dades, des del disseny i per defecte