Gobernar los datos para gobernar la inteligencia artificial

La publicació el divendres 12 de juliol de 2024 de el Reglament d'Intel·ligència Artificial (RIA o AIA en les seves sigles en anglès) obre una nova etapa en el marc regulatori europeu i global. La norma es caracteritza per tractar de conjugar dues ànimes. De un costat es tracta d'assegurar que la tecnologia no generi riscos sistèmics per a la democràcia, la garantia dels nostres drets i l'ecosistema socioeconòmic en el seu conjunt. D'un altre costat, se cerca un enfocament orientat al desenvolupament de producte de manera que respongui als alts estàndards de fiabilitat, seguretat i compliment normatiu definits per la Unió Europea.

Àmbit d'aplicació de la norma

La norma permet diferenciar entre sistemes de baix i mig risc, sistemes d'alt risc i models de IA d'ús general. Per qualificar els sistemes, el RIA defineix criteris relacionats amb el sector regulat per la Unió Europea (Annex I) i defineix el contingut i abast d'aquells sistemes que per la seva naturalesa i finalitat podrien generar riscos (Annex III). Els models són altament depenents del volum de dades, les seves capacitats i la càrrega operacional.

El RIA solament afecta als dos últims casos: sistemes d'alt risc i models de IA d'ús general. Els sistemes d'alt risc exigeixen l'avaluació de la conformitat a través d'organismes notificats. Aquests són entitats davant les quals es presenten evidències que el desenvolupament s'ajusta al RIA. En aquest sentit, els models estan subjectes a fórmules de control per la Comissió que asseguren la prevenció de riscos sistèmics. No obstant això, estem davant un marc normatiu flexible que afavoreix la recerca, relaxant la seva aplicació en entorns d'experimentació, així com mitjançant el desplegament de sandboxes per al desenvolupament.

La norma estableix una sèrie de “requisits dels sistemes de IA d'alt risc” (secció segona del capítol tercer) que haurien de constituir un marc de referència per al desenvolupament de qualsevol sistema i inspirar els codis de bones pràctiques, normes tècniques i esquemes de certificació. Entre ells, ocupa un lloc central l'article 10 sobre “dades i governança de dades”. Est proporciona indicacions molt precises sobre les condicions de disseny dels sistemes de IA, particularment quan suposin tractar dades personals o quan es projectin sobre persones físiques.

Aquesta governança hauria de considerar-se per els qui proporcionin la infraestructura bàsica i/o els conjunts de dades, gestionin espais de dades o els anomenats Digital Innovation Hubs, que ofereixin serveis de suport. En el nostre ecosistema, caracteritzat per una alta prevalença de PYMEs i/o equips de recerca, la governança de dades es projecta sobre la qualitat, seguretat i fiabilitat en les seves accions i resultats. Per això és necessari assegurar els valors que el RIA imposa als conjunts de dades d'entrenament, validació i prova en sistemes d'alt risc i, si escau, quan s'emprin tècniques que impliquin l'entrenament de models de IA.

Aquests valors poden alinear-se amb els principis de l'article 5 de el Reglament General de Protecció de Dades (RGPD) i els enriqueixen i complementen. A ells s'afegeix l'enfocament de risc i la protecció de dades des del disseny i per defecte. Relacionar els uns i els altres constitueix un exercici sens dubte interessant.

Garantir l'origen legítim de les dades: Lealtad i licitud

Al costat de la referència comuna a la cadena de valor associada a les dades, cal referir-se a una cadena de custòdia que garanteixi la legalitat en els processos de recollida de dades. L'origen de les dades, particularment en el cas de les dades personals, ha de ser lícit, legítim i el seu ús coherent amb la finalitat original de la seva recollida. Per això és indispensable una adequada catalogació dels conjunts de dades en origen que asseguri una correcta descripció de la seva legitimitat i condicions d'ús.

Aquesta és una qüestió que afecta als entorns de open data, als organismes i serveis d'accés a dades detallades en el Reglamento de governança de dades (DGA en les seves sigles en anglès) o el Espai Europeu de Dades de Salut (EHDS) i de ben segur inspirarà futures regulacions. L'usual serà combinar fonts externes de dades amb la informació que maneja la PIME.

Minimització de les dades, exactitud i limitació de finalitat

El RIA ordena, d'una part, realitzar una avaluació de la disponibilitat, la quantitat i l'adequació dels conjunts de dades necessàries. D'una altra, exigeix que els conjunts de dades d'entrenament, validació i prova siguin pertinents, suficientment representatius i posseeixin les propietats estadístiques adequades. Aquesta tasca és molt rellevant per als drets de les persones o els col·lectius afectats pel sistema. A més, en la major mesura possible, mancaran d'errors i estaran complets en vista de la seva finalitat prevista. RIA predica aquestes propietats per a cada conjunt de dades individualment o per a una combinació d'aquests.

Per a la consecució de tals objectius resulta necessari assegurar el desplegament de les tècniques adequades:

Realitzar les operacions de tractament oportunes per a la preparació de les dades, com l'anotació, l'etiquetatge, la depuració, l'actualització, l'enriquiment i l'agregació.
Formular suposats, en particular pel que fa a la informació que se suposa que mesuren i representen les dades. O, dit en un llenguatge més col·loquial, definir els casos d'ús.
Tenir en compte, en la mesura necessària per a la finalitat prevista, les característiques o elements particulars de l'entorn geogràfic, contextual, conductual o funcional específic en el qual està previst que s'utilitzi el sistema de IA d'alt risc.

Gestionar el risc: evitar el biaix

En l'àmbit de la governança de les dades s'atribueix un paper essencial a l'evitació del biaix quan pugui generar riscos per a la salut i la seguretat de les persones, afectar negativament als drets fonamentals o donar lloc a algun tipus de discriminació prohibida pel Dret de la Unió, especialment quan les sortides de dades influeixin en les informacions d'entrada de futures operacions. Per a això procedeix adoptar les mesures adequades per detectar, prevenir i mitigar possibles biaixos detectats.

El RIA habilita excepcionalment el tractament de categories especials de dades personals sempre que ofereixin les garanties adequades en relació amb els drets i les llibertats fonamentals de les persones físiques. Però imposa condicions addicionals:

que el tratamiento de otros datos, como los sintéticos o los anonimizados, no permita efectuar de forma efectiva la detección y corrección de sesgos;
que les categories especials de dades personals estiguin subjectes a limitacions tècniques relatives a la reutilització de les dades personals i a mesures capdavanteres en matèria de seguretat i protecció de la intimitat, inclosa la seudonimización ;
que les categories especials de dades personals estiguin subjectes a mesures per garantir que les dades personals tractats estiguin assegurats, protegits i subjectes a garanties adequades, inclosos controls estrictes i documentació de l'accés, a fi d'evitar l'ús indegut i garantir que solament les persones autoritzades tinguin accés a aquestes dades personals amb obligacions de confidencialitat adequades;
que les categories especials de dades personals no es transmetin ni transfereixin a tercers i que aquests no puguin accedir de cap altra manera a ells;
que les categories especials de dades personals s'eliminin una vegada que s'hagi corregit el biaix o les dades personals hagin arribat al final del seu període de conservació, si aquesta data és anterior;
que els registres de les activitats de tractament conformement als Reglamentos (UE) 2016/679 i (UE) 2018/1725 i la Directiva (UE) 2016/680 incloguin les raons per les quals el tractament de categories especials de dades personals era estrictament necessari per detectar i corregir biaixos, i per les quals aquest objectiu no podia aconseguir-se mitjançant el tractament d'altres dades.

Les previsions normatives resulten extraordinàriament interessants. RGPD, DGA o EHDS aposten per tractar dades anonimizados. RIA estableix una excepció en aquells casos en els quals es generen conjunts de dades inadequades o de baixa qualitat des del punt de vista del biaix.

Tant els desenvolupadors individuals, com els espais de dades i els serveis d'intermediació que proporcionin conjunts de dades i/o plataformes per al desenvolupament han de ser particularment diligents a l'hora de definir la seva seguretat. Aquesta previsió és coherent amb l'exigència de disposar d'espais segurs/segurs de processament en EHDS, implica una aposta per estàndards certificables en seguretat, públics o privats, i aconsella una relectura de la disposició addicional dissetena sobre tractaments de dades en la nostra Llei orgànica de protecció de dades en matèria de seudonimización, en la mesura en la qual afegeix garanties ètiques i jurídiques a les pròpiament tècniques. A més, se subratlla la necessitat de garantir una adequada traçabilitat en els usos. Addicionalment serà necessari integrar en el registre d'activitats de tractament un esment específic a aquest tipus d'usos i a la seva justificació.

Aplicar les lliçons apreses des de la protecció de dades, des del disseny i per defecte

L'article 10 de RIA obliga a documentar les decisions pertinents relatives al disseny i a detectar llacunes o deficiències pertinents en les dades que impedeixin el compliment del RIA i la forma d'esmenar-les. En resum, no n'hi ha prou amb garantir la governança de dades, també és necessari proporcionar evidència documental i mantenir una actitud proactiva i vigilant durant tot el cicle de vida dels sistemes d'informació.

Aquestes dues obligacions integren la clau de volta del sistema. I la seva lectura hauria de ser fins i tot molt més àmplia en la dimensió jurídica. Les lliçons apreses en el RGPD ensenyen que existeix una doble condició per a la responsabilitat proactiva i la garantia dels drets fonamentals. La primera és intrínseca i material: el desplegament de l'enginyeria de la privadesa al servei de la protecció de dades des del disseny i per defecte assegura el compliment del RGPD. La segona és contextual: els tractaments de dades personals no es donen en el buit, sinó en un context ampli i complex regulat per altres sectors de l'Ordenament.

La governança de dades opera estructuralment des dels fonaments a la volta dels sistemes d'informació basats en IA. Assegurar que existeixi, sigui adequada i funcional és essencial. Así ho ha entès la Estratègia d'Intel·ligència Artificial 2024 del Govern d'Espanya que tracta de dotar al país d'aquestes palanques que dinamitzin el nostre desenvolupament.

RIA planteja un salt qualitatiu i subratlla l'enfocament funcional des del qual han de llegir-se els principis de protecció de dades subratllant la dimensió poblacional. Això obliga a repensar les condicions en les quals s'ha vingut complint el RGPD en la Unió Europea. Urgeix abandonar els models basats en plantilles que l'empresa de consultoria copia-pega. És evident que les llistes de control i l'estandardització són imprescindibles. No obstant això, la seva efectivitat és altament depenent de l'ajust fi. I això obliga a apel·lar particularment als professionals que suporten el compliment d'aquest objectiu a dedicar els seus majors esforços per dotar de sentit profund al compliment del Reglament d'Intel·ligència Artificial.

Font original de la notícia (Obre en nova finestra)

Governar les dades per governar la intel·ligència artificial

Àmbit d'aplicació de la norma

Garantir l'origen legítim de les dades: Lealtad i licitud

Minimització de les dades, exactitud i limitació de finalitat

Gestionar el risc: evitar el biaix

Aplicar les lliçons apreses des de la protecció de dades, des del disseny i per defecte