La importancia de la equidad de datos en los sistemas de inteligencia artificial

La importància de l'equitat de dades en els sistemes d'intel·ligència artificial

17 juliol 2024

El Foro Económico Mundia va realitzar l'informe titulat “Equitat de dades: conceptes fonamentals per a la IA generativa" dirigit a la indústria, la societat civil, acadèmia i prenedors i prenedores de decisió. Ara Datos.gob publica una interessant anàlisi del mateix.

La equitat de dades és un concepte que emfatitza la importància de considerar qüestions de poder, biaix i discriminació en la recopilació, l'anàlisi i la interpretació de dades. Implica garantir que les dades es recopilen, analitzen i utilitzen de manera justa, inclusiva i equitativa per a totes les parts interessades, en particular aquelles que històricament han sigut marginades o excloses. Encara que no hi ha un consens sobre la seua definició, l'equitat de dades té com a objectiu abordar les desigualtats sistèmiques i els desequilibris de poder mitjançant la promoció de la transparència, la rendició de comptes i la propietat comunitària de les dades. També implica reconéixer i corregir els llegats de discriminació a través de dades i garantir que les dades s'utilitzen per a recolzar el benestar i l'apoderament de tots els individus i comunitats. Per tot açò, l'equitat de dades és un principi clau en la governança de dades, relacionat amb els impactes en individus, grups i ecosistemes

Per a aclarir més sobre esta qüestió, el Foro Económico Mundial –una organització que reunix a líders de les grans empreses i persones expertes per a tractar assumptes globals— va publicar fa uns mesos un informe breu titulat “ Data Equity: Foundational Concepts for Generative AI ” ("Equitat de dades: conceptes fonamentals per a la IA generativa"), dirigit a la indústria, la societat civil, acadèmia i prenedors i prenedores de decisió.

L'objectiu del document del Fòrum Econòmic Mundial és, primer, definir la equitat de les dades i demostrar la seua importància en el desenvolupament i la implementació de la IA generativa (coneguda com genAI). En este informe, el Fòrum Econòmic Mundial identifica alguns desafiaments i riscos associats amb la falta d'equitat de dades en el desenvolupament de la IA, com el biaix, la discriminació i els resultats injusts. Així mateix, pretén oferir orientació pràctica i recomanacions per a aconseguir l'equitat de dades, incloses estratègies per a la recopilació, l'anàlisi i l'ús de dades. D'altra banda, el Fòrum Econòmic Mundial diu voler, d'una banda, fomentar la col·laboració entre les parts interessades de la indústria, els governs, el món acadèmic i la societat civil per a abordar les qüestions d'equitat de dades i promoure el desenvolupament d'una IA justa i inclusiva, i per un altre, influir sobre el futur del desenvolupament de la IA.

A continuació, s'analitzen algunes de les claus de l'informe.

Tipus d'equitat de dades

El document identifica quatre classes principals d'equitat de dades:

La equitat de representació es referix a la inclusió justa i proporcional de diferents grups en els conjunts de dades utilitzades per a entrenar models de genAI.
La equitat de recursos parla de la distribució equànime dels recursos (dades, infraestructura i coneixements) necessaris per al desenvolupament i ús de la genAI.
La equitat d'accés implica garantir un accés just i no discriminatori a les capacitats i beneficis de la genAI per part de diferents grups.
La equitat de resultats busca assegurar que els resultats i aplicacions de la genAI no generen impactes desproporcionats o perjudicials per a grups vulnerables.

Desafiaments d'equitat en la genAI

El document destaca que els models de fundació, que són la base de moltes ferramentes de genAI, presenten desafiaments específics d'equitat de dades, ja que codifiquen biaixos i prejuís presents en els conjunts de dades d'entrenament i els poden arribar a amplificar en els seus resultats. En IA, un model de funció es referix a un programa o algoritme que es basa en dades d'entrenament per a reconéixer patrons i fer prediccions o decisions, la qual cosa li permet fer prediccions o decisions basades en noves dades d'entrada.

Els principals reptes en termes de justícia social amb la intel·ligència artificial (IA) inclouen el fet que les dades d'entrenament poden estar esbiaixats. Els models de IA generativa s'entrenen en grans conjunts de dades que sovint contenen biaixos i contingut discriminatori, la qual cosa pot conduir a la perpetuació del discurs d'odi, la misogínia i el racisme. Després, es poden produir biaixos algorítmics, que no solament reproduïxen estos biaixos inicials, sinó que poden amplificar-los, augmentant les desigualtats socials existents i resultar en discriminació i tracte injust als grups estereotipats. Existixen també preocupacions sobre la privacitat, ja que la IA generativa es basa en algunes dades personals confidencials, que poden ser explotats i exposats.

L'ús cada vegada més extens de la IA generativa en diversos camps està ja provocant canvis laborals, ja que és més fàcil, ràpid o barat demanar-li a una intel·ligència artificial que creu una imatge o un text –en realitat, basat en les creacions humanes que existixen en internet- que encarregar-ho a una persona experta. Açò pot exacerbar les desigualtats econòmiques.

Finalment, la IA generativa té el potencial d'intensificar la desinformació. La IA generativa es pot utilitzar per a crear deepfakes d'alta qualitat, que ja s'estan usant per a difondre bulos i desinformació, alguna cosa que podria soscavar els processos i institucions democràtics.

Brechas i possibles solucions

Estos desafiaments ressalten la necessitat d'una acurada consideració i regulació de la IA generativa per a garantir que es desenvolupe i utilitze d'una manera que respecte els drets humans i promoga la justícia social. No obstant açò, el document no aborda la desinformació i solament esmenta el gènere quan parla de la “equitat de característiques” (feature equity), un component de l'equitat de dades. L'equitat de característiques busca “garantir una representació precisa dels individus, grups i comunitats representats per les dades, la qual cosa requerix la inclusió de atributs com a raça, gènere, ubicació i ingressos juntament amb altres dades” (pág. 4). Sense estos atributs, diu el document, “sovint resulta difícil identificar i abordar biaixos i desigualtats latents”. No obstant açò, eixes mateixes característiques es poden utilitzar per a discriminar contra les dones, per exemple.

Per a abordar estos desafiaments, es requerix el compromís i la col·laboració de diverses parts interessades, com la indústria, el govern, l'acadèmia i la societat civil, per a desenvolupar mètodes i processos que integren consideracions d'equitat de dades en totes les fases del desenvolupament de la genAI. Este document senta les bases teòriques del que es pot entendre com a equitat de dades; no obstant açò, queda molt camí per a veure com es passa de la teoria a la pràctica en regulació, hàbits i coneixement.

Este document enllaça amb els passos que ja s'estan duent a terme a Europa i Espanya amb la Llei de IA de la Unió Europea i l'Estratègia IA del Govern d'Espanya , respectivament. Precisament, un dels eixos d'esta última (Eix 3) és fomentar una IA transparent, ètica i humanística.

L'estratègia espanyola de IA és un document més ampli que el del Fòrum Econòmic Mundial, que descriu els plans del govern per al desenvolupament i l'adopció de tecnologies d'intel·ligència artificial general. L'estratègia se centra en àrees com el desenvolupament del talent, la investigació i la innovació, els marcs regulatoris i l'adopció de la IA en els sectors públic i privat, i es dirigix principalment a parts interessades nacionals, com a agències governamentals, empreses i institucions d'investigació. Si bé l'estratègia espanyola de IA no esmenta explícitament l'equitat de les dades, sí emfatitza la importància d'un desenvolupament responsable i ètic de la IA, que podria incloure consideracions entorn de/entorn de l'equitat de les dades.

Font original de la notícia (Obri en nova finestra)

Informació i dades del sector públic
Intel·ligència Artificial i Blockchain