accesskey_mod_content

Documentació de dades: Datasheets for datasets

  • Escoltar
  • Copiar
  • Imprimir PDF
  • Compartir

"Notícia disponible únicament amb finalitats històriques i d'hemeroteca. La informació i enllaços mostrats es corresponen amb els quals estaven operatius a la data de la seva publicació. No es garanteix que continuïn actius actualment".

07 octubre 2022

Perquè els models d'aprenentatge automàtic funcionin correctament, es necessiten dades de qualitat i ben documentats. Tot model d'aprenentatge automàtic s'entrena i avalua amb dades. 

16.500 milions d'euros. Aquests són els  ingressos que s'estima generaran la intel·ligència artificial (IA) i les dades  en la indústria espanyola per 2025, segons es va avançar el febrer passat en el fòrum de  IndesIA(Obre en nova finestra) , l'associació per a l'aplicació de la intel·ligència artificial en la indústria. La  IA ja forma part del nostre dia a dia : ja sigui fent més senzill el nostre treball en realitzar tasques rutinàries i repetitives, o ben complementant les capacitats humanes en diversos àmbits a través de models d'aprenentatge automàtic que faciliten, per exemple, el reconeixement d'imatges, la traducció automàtica o la predicció de diagnòstics mèdics. Totes elles, activitats que ens ajuden a millorar l'eficiència de negocis i serveis, impulsant una presa de decisions més precisa.

Però perquè els models d'aprenentatge automàtic (també coneguts pel terme en anglès  machine learning ) funcionin correctament, es necessiten dades de qualitat i ben documentats. Tot model d'aprenentatge automàtic s'entrena i avalua amb dades. Les característiques d'aquests conjunts de dades condicionen el comportament del model. Per exemple, si les dades d'entrenament reflecteixen biaixos socials no desitjats és probable que aquests també s'incorporin en el model, la qual cosa pot tenir greus conseqüències quan s'utilitza en àmbits de gran importància, com la justícia penal, la contractació de persones o el préstec de crèdits. A més, si no coneixem el context de les dades, pot ser que el nostre model no funcioni correctament, ja que en el seu procés de construcció no s'han tingut en compte les característiques intrínseques de les dades sobre els quals se sustenta.

Per aquestes i altres raons, el  Foro Económico Mundial  suggereix que totes les entitats han de documentar la procedència, la creació i l'ús dels conjunts de dades d'aprenentatge automàtic amb la finalitat d'evitar resultats erronis o discriminatoris.

Què són Datasheets for datasets?

Un mecanisme per documentar aquesta informació són les conegudes com  Datasheets for datasets . Aquest marc de treball proposa que tot conjunt de dades ha de ser acompanyat d'una “fitxa de dades”, cridada datasheet, que consisteix d'un qüestionari que guia en la documentació de les dades i la reflexió al llarg del cicle de vida de les dades. Algunes dels avantatges que suposa són:

  • Millora la col·laboració, la transparència i la responsabilitat dins de la comunitat d'aprenentatge automàtic.
  • Mitiga els biaixos socials no desitjats en els models.
  • Ajuda als investigadors i desenvolupadors a seleccionar els conjunts de dades més apropiades per aconseguir els seus objectius específics.
  • Facilita una major reproducibilidad dels resultats.

Els datasheets variaran depenent de factors tals com l'àrea de coneixement, la infraestructura organitzacional existent o els fluxos de treball.

Per ajudar en la creació de les datasheet, s'ha dissenyat un qüestionari amb una sèrie de preguntes, concordes a les etapes del cicle de vida de les dades:

  • Motivació. Recoge les raons que han portat a la creació dels conjunts de dades. També es pregunta sobre qui va crear o va finançar dits datasets.
  • Composició. Ofrece als usuaris la informació necessària sobre l'adequació del conjunt de dades als seus objectius. Inclou, entre altres preguntes, quines unitats d'observació representen el conjunt de dades (documents, fotos, persones, països), quin tipus d'informació ofereix cada unitat o si hi ha errors, fonts de soroll o redundàncies en ell. Reflexiona sobre les dades que es refereixen a persones per evitar possibles biaixos socials o violacions a la privadesa.
  • Procés de recol·lecció. El seu objectiu és ajudar als investigadors i usuaris a pensar en com crear conjunts de dades alternatives amb similars característiques. Aquí es detalla, per exemple, com es van adquirir les dades, qui va participar en el procés de recopilació o com va ser el procés de revisió ètica. Tracta especialment els aspectes ètics del processament de dades protegides per la RGPD.
  • Preprocesamiento, neteja o etiquetatge. Gràcies a aquestes preguntes, els usuaris de dades podran determinar si aquests han estat processats de formes compatibles amb els usos que els pretenen donar. Indaga sobre si es va realitzar algun preprocesamiento, neteja o etiquetatge de les dades, o si està disponible el programari que es va utilitzar per preprocesarlos, netejar-los i etiquetar-los.
  • Usos. Aquesta secció proporciona informació sobre aquelles tasques per les quals les dades poden o no poden ser usats. Per a això, s'ha de respondre a preguntes com: El conjunt de dades ja ha estat usat per a alguna tasca? Para quin altres tasques poden ser utilitzats? La composició del conjunt de dades o la forma en què es va recopilar, preprocesó, va netejar i va etiquetar pot afectar a altres usos futurs?
  • Distribució. Recoge com es difondrà el conjunt de dades. Les preguntes se centren en si les dades es distribuiran a tercers i, en cas afirmatiu, com, quan, quins són les restriccions d'ús i baix quines llicències.
  • Mantenimiento. El qüestionari finalitza amb preguntes dirigides a planificar el manteniment de les dades i comunicar el pla als usuaris de les dades. Per exemple, es respon a si s'actualitzarà el conjunt de dades o qui donarà suport.

Es recomana que totes les preguntes siguin tingudes en compte abans de la recol·lecció de les dades, perquè els seus creadors puguin ser conscients dels possibles problemes. Per il·lustrar com es podria respondre a cadascuna d'elles en la pràctica, els creadors del model han elaborat un  apèndix  amb un exemple per a un conjunt de dades determinat.

Els datasheets for datasets són fitxes que ajuden en la documentació de les dades.  Cada fitxa, inclou una sèrie de preguntes relacionades amb els següents aspectes:      Motivació     Composició del dataset     Procés de recol·lecció     Preprocesamiento, neteja o etiquetatge.     Usos     Distribució     Manteniment  Avantatges:      Milloren la transparència i responsabilitat.     Mitiguen els biaixos socials no desitjats en els models.     Ajuden a seleccionar els conjunts de dades més apropiades per a cada objectiu.     Faciliten una major reproducibilidad dels resultats

És efectiu Datasheets for datasets?

El marc per documentar les dades Datasheets for datasets ha rebut inicialment bones crítiques, però la seva implementació continua implicant diversos reptes, sobretot quan es treballa amb dades dinàmiques.

Per conèixer si el marc resol de forma efectiva les necessitats de documentació dels creadors i els usuaris de les dades, al juny del 2022, Microsoft USA i la Universitat de Michigan van dur a terme un  estudio sobre la seva implementació . Per a això van realitzar una sèrie d'entrevistes i un seguiment de l'aplicació del qüestionari per part de diversos professionals de l'aprenentatge automàtic.

En resum, els participants van expressar la necessitat que els marcs de documentació siguin adaptables als diferents contextos, s'integrin en les eines existents i en els fluxos de treball, i que siguin tan automatitzats com sigui possible, hagut d'en part a l'extensió de les preguntes. No obstant això, també van ressaltar els seus avantatges, com, per exemple, que redueix el risc de pèrdua d'informació, promou la col·laboració entre tots els que participen en el cicle de vida de les dades, facilita el descobriment de les dades o impulsa el pensament crític, entre unes altres.

En definitiva, ens trobem davant un bon punt de partida, però que haurà d'evolucionar, sobretot per adaptar-se a les necessitats de les dades dinàmiques i als fluxos de documentació aplicats en diferents contextos.

Font original de la notícia(Obre en nova finestra)

  • Informació i dades del sector públic