Datos abiertos e IA generativa: sinergias y casos de uso

La intel·ligència artificial ( IA ) està revolucionant la manera en què creguem i consumim contingut (Obri en nova finestra) . Des de l'automatització de tasques repetitives fins a la personalització d'experiències, la IA oferix ferramentes que estan canviant el panorama del màrqueting, la comunicació i la creativitat .

Estes intel·ligències artificials necessiten ser entrenades amb dades (Obri en nova finestra) concordes als objectius, sobre els quals no discórreguen drets d'autor. Per açò, les dades obertes s'alcen com una ferramenta de gran utilitat amb vista al futur de la IA .

Per a aprofundir sobre esta temàtica, The Govlab ha publicat l'informe “A Fourth Wave of Open Data? Exploring the Spectrum of Scenarios for Open Data and Generative AI” (Una quarta ona de dades obertes? Explorant l'espectre d'escenaris per a les dades obertes i la IA generativa). En ell s'analitza la relació emergent entre les dades obertes i la IA generativa, presentat diversos escenaris i recomanacions.

A continuació, s'arrepleguen les seues claus.

El paper de les dades en la IA generativa

Les dades són la base fonamental dels models generatius d'intel·ligència artificial. Construir i entrenar aquests models requerix un gran volum de dades, l'escala de les quals i varietat està condicionada pels objectius i els casos d'ús del model.

El següent gràfic explica com les dades funcionen com una peça clau tant d'entrada d'un sistema de IA generativa, com d'eixida. Les dades es recopilen de diverses fonts, incloent portals de dades obertes, amb la finalitat d'entrenar un model de IA de propòsit general. Este model, posteriorment, serà adaptat per a realitzar funcions específiques i diferents tipus d'anàlisis, que generen, al seu torn, noves dades, que poden utilitzar-se per a seguir entrenant models.

5 escenaris on convergixen les dades obertes i la Intel·ligència artificial

Amb la finalitat d'ajudar als proveïdors de dades obertes a “preparar” aquestes dades per a la IA generativa, The Govlab ha definit cinc escenaris que resumixen cinc formes diferents en les quals les dades obertes i la IA generativa poden creuar-se. Estos escenaris pretenen ser un punt de partida, que s'anirà ampliant en el futur, sobre la base dels casos d'ús disponibles.

Estos escenaris pretenen ser un punt de partida, que s'anirà ampliant en el futur, sobre la base dels casos d'ús disponibles.

Escenari	Funció	Requisits de qualitat	Necessitats de metadades	Exemple
Preentrenamiento (Pretraining)	Entrenament de les capes fundacionals de un modelo de IA generativa con grandes cantidades de datos abiertos.	Alt volum de dades, diversos i representatius del domini d'aplicació i ús no estructurat	Informació clara sobre la font de les dades.	Les dades del projecte Harmonized Landsat Sentinel-2 (HLS) de la NASA es van utilitzar per a entrenar el model fundacional geoespacial watsonx.ai .
Adaptació (Adaptation)	Perfeccionamiento de un modelo preentrenado con datos abiertos específicos para tareas concretas, utilizando técnicas de fine-tuning or RAG.	Dades tabulars i/o no estructurats d'alta precisió i rellevància per a la tasca objectiu, amb una distribució equilibrada.	Metadatado centrat en l'anotació i procedència de les dades per a aportar enriquiment contextual.	Partint del model CRIDA 70B , el Govern de França va crear LLaMandement , un model de llenguatge gran perfeccionat per a l'anàlisi i la redacció de resums de projectes jurídics. Per a açò van usar dades de SIGNALE, la plataforma legislativa del Govern francés.
Inferència i generació de fets rellevants (Inference and Insight Generation)	Extracció d'informació i patrons a partir de dades obertes mitjançant un model entrenat de IA generativa.	Dades tabulars d'alta qualitat, complets i coherents.	Metadatado descriptiu dels mètodes de recollida de dades, informació d'origen i control de versions.	Wobby és una interfície generativa que accepta consultes en llenguatge natural i produïx respostes en forma de resums i visualitzacions, utilitzant conjunts de dades de diferents oficines com Eurostat o el Banc Mundial.
Increment de dades (Data Augmentation)	Aprofitament de les dades obertes per a generar dades sintètiques o proporcionar ontologies per a estendre la quantitat de dades d'entrenament.	Dades tabulars i/o no estructurats que siguen una representació pròxima a la realitat, assegurant el compliment de consideracions ètiques.	Transparència sobre el procés de generació i possibles biaixos.	Un equip d'investigadors va adaptar el model Synthea d'EUA per a incloure dades demogràfiques i hospitalaris d'Austràlia. Utilitzant este model, l'equip va poder generar aproximadament 117.000 historials mèdics sintètics específics, aplicats a la seua regió.
Exploració oberta (Open-Ended Exploration)	Exploració i descobriment de nous coneixements i patrons en dades obertes mitjançant models generatius.	Dades tabulars i/o no estructurats, diversos i complets.	Informació clara sobre fonts i drets d'autor, comprensió de possibles biaixos i limitacions, identificació d'entitats.	NEPAccess és un pilot per a desbloquejar l'accés dades relacionades amb la Llei Nacional de Política Mediambiental (NEPA) d'EUA mitjançant un model generatiu de IA. Inclourà funcions per a redactar avaluacions d'impacte ambiental, anàlisi de dades, etc.

Figura 2. Cinco escenarios donde convergen los datos abiertos y la Inteligencia artificial, adaptado del informe “A Fourth Wave of Open Data? Exploring the Spectrum of Scenarios for Open Data and Generative AI”, de The Govlab, 2024.

Puedes leer el detalle de estos escenarios en el informe, donde se explican más ejemplos. Además, The Govlab també ha posat en marxa un observatori on recopila exemples d'interseccions entre dades obertes i intel·ligència artificial generativa (Obri en nova finestra) (els inclosos en l'informe juntament amb altres addicionals). Qualsevol usuari pot proposar nous casos a través d'este este formulari . Aquests exemples s'utilitzaran per a continuar estudiant este camp i millorar els escenaris actualment definits.

Entre los casos que se pueden ver en la web, encontramos una empresa española: Tendios (Obri en nova finestra) . Se trata de una compañía de software como servicio que ha desarrollado un chatbot para ayudar en el análisis de licitaciones y concursos públicos con el fin de facilitar la concurrencia. Esta herramienta está entrenada con documentos públicos de licitaciones gubernamentales.

Recomanacions per a publicadors de dades

Per a extraure el màxim potencial de IA generativa, millorant la seua eficiència i eficàcia, l'informe destaca que els proveïdors de dades obertes han de fer front a alguns reptes, com la millora de la governança i la gestió de les dades. En este sentit, arrepleguen cinc recomanacions:

Millorar la transparència i la documentació. A través de l'ús d'estàndards, diccionaris de dades, vocabularis, plantilles de metadades, etc. s'ajudarà a aplicar pràctiques de documentació sobre el llinatge, la qualitat, les consideracions ètiques i l'impacte dels resultats.
Mantindre la qualitat i la integritat. Es necessita formació i processos rutinaris que asseguren la qualitat, inclosa la validació automatitzada o manual, així com ferramentes per a actualitzar els conjunts de dades ràpidament quan siga necessari. A més, són necessaris mecanismes per a informar i abordar problemes que puguen sorgir relacionats amb les dades, a fi d'impulsar la transparència i facilitar la creació d'una comunitat entorn de/entorn dels conjunts de dades obertes.
Fomentar la interoperabilitat i els estàndards. Implica adoptar i promoure normes internacionals de dades, amb especial focus en les dades sintètiques i els continguts generats per IA .
Millorar l'accessibilitat i la facilitat d'ús. Suposa la millora dels portals de dades obertes mitjançant algoritmes de cerca intel·ligents i ferramentes interactives. També és imprescindible establir un espai compartit on els publicadors de les dades i els usuaris puguen intercanviar opinions i manifestar necessitats, amb la finalitat de fer coincidir oferta i demanda.
Abordar les consideracions ètiques. Protegir als titulars de les dades és de màxima prioritat en parlar de dades obertes i IA generativa. Es necessiten comités ètics i directrius ètiques exhaustives entorn de/entorn de la recopilació, l'intercanvi i l'ús de dades obertes, així com tecnologies avançades de preservació de la intimitat.

Estem davant un camp en contínua evolució que necessita d'actualització constant per part dels publicadors de dades. Estos han de proporcionar conjunts de dades adequades tant tècnica com èticament, perquè els sistemes de IA generativa puguen aconseguir tot el seu potencial.

Font original de la notícia (Obri en nova finestra)

Dades obertes i IA generativa: sinergies i casos d'ús

El paper de les dades en la IA generativa

5 escenaris on convergixen les dades obertes i la Intel·ligència artificial

Recomanacions per a publicadors de dades