Datos abiertos e IA generativa: sinergias y casos de uso

La intel·ligència artificial ( IA ) està revolucionant la manera en què creguem i consumim contingut (Obre en nova finestra) . Des de l'automatització de tasques repetitives fins a la personalització d'experiències, la IA ofereix eines que estan canviant el panorama del màrqueting, la comunicació i la creativitat .

Aquestes intel·ligències artificials necessiten ser entrenades amb dades (Obre en nova finestra) concordes als objectius, sobre els quals no discorrin drets d'autor. Per això, les dades obertes s'alcen com una eina de gran utilitat amb vista al futur de la IA .

Per aprofundir sobre aquesta temàtica, The Govlab ha publicat l'informe “A Fourth Wave of Open Data? Exploring the Spectrum of Scenarios for Open Data and Generative AI” (Una quarta ona de dades obertes? Explorant l'espectre d'escenaris per a les dades obertes i la IA generativa). En ell s'analitza la relació emergent entre les dades obertes i la IA generativa, presentat diversos escenaris i recomanacions.

A continuació, es recullen les seves claus.

El paper de les dades en la IA generativa

Les dades són la base fonamental dels models generatius d'intel·ligència artificial. Construir i entrenar aquests models requereix un gran volum de dades, l'escala de les quals i varietat està condicionada pels objectius i els casos d'ús del model.

El següent gràfic explica com les dades funcionen com una peça clau tant d'entrada d'un sistema de IA generativa, com de sortida. Les dades es recopilen de diverses fonts, incloent portals de dades obertes, amb la finalitat d'entrenar un model de IA de propòsit general. Aquest model, posteriorment, serà adaptat per realitzar funcions específiques i diferents tipus d'anàlisis, que generen, al seu torn, noves dades, que poden utilitzar-se per seguir entrenant models.

5 escenaris on convergeixen les dades obertes i la Intel·ligència artificial

Amb la finalitat d'ajudar als proveïdors de dades obertes a “preparar” aquestes dades per a la IA generativa, The Govlab ha definit cinc escenaris que resumeixen cinc formes diferents en les quals les dades obertes i la IA generativa poden creuar-se. Aquests escenaris pretenen ser un punt de partida, que s'anirà ampliant en el futur, sobre la base dels casos d'ús disponibles.

Aquests escenaris pretenen ser un punt de partida, que s'anirà ampliant en el futur, sobre la base dels casos d'ús disponibles.

Escenari	Funció	Requisits de qualitat	Necessitats de metadades	Exemple
Preentrenamiento (Pretraining)	Entrenament de les capes fundacionals de un modelo de IA generativa con grandes cantidades de datos abiertos.	Alt volum de dades, diversos i representatius del domini d'aplicació i ús no estructurat	Informació clara sobre la font de les dades.	Les dades del projecte Harmonized Landsat Sentinel-2 (HLS) de la NASA es van utilitzar per entrenar el model fundacional geoespacial watsonx.ai .
Adaptación (Adaptation)	Perfeccionamiento de un modelo preentrenado con datos abiertos específicos para tareas concretas, utilizando técnicas de fine-tuning or RAG.	Dades tabulars i/o no estructurats d'alta precisió i rellevància per a la tasca objectiu, amb una distribució equilibrada.	Metadatado centrat en l'anotació i procedència de les dades per aportar enriquiment contextual.	Partint del model CRIDA 70B , el Govern de França va crear LLaMandement , un model de llenguatge gran perfeccionat per a l'anàlisi i la redacció de resums de projectes jurídics. Per a això van usar dades de SIGNALE, la plataforma legislativa del Govern francès.
Inferència i generació de fets rellevants (Inference and Insight Generation)	Extracció d'informació i patrons a partir de dades obertes mitjançant un model entrenat de IA generativa.	Dades tabulars d'alta qualitat, complets i coherents.	Metadatado descriptiu dels mètodes de recollida de dades, informació d'origen i control de versions.	Wobby és una interfície generativa que accepta consultes en llenguatge natural i produeix respostes en forma de resums i visualitzacions, utilitzant conjunts de dades de diferents oficines com Eurostat o el Banc Mundial.
Increment de dades (Data Augmentation)	Aprovechamiento de les dades obertes per generar dades sintètiques o proporcionar ontologies per estendre la quantitat de dades d'entrenament.	Dades tabulars i/o no estructurats que siguin una representació pròxima a la realitat, assegurant el compliment de consideracions ètiques.	Transparència sobre el procés de generació i possibles biaixos.	Un equip d'investigadors va adaptar el model Synthea d'EUA per incloure dades demogràfiques i hospitalaris d'Austràlia. Utilizando aquest model, l'equip va poder generar aproximadament 117.000 historials mèdics sintètics específics, aplicats a la seva regió.
Exploració oberta (Open-Ended Exploration)	Exploració i descobriment de nous coneixements i patrons en dades obertes mitjançant models generatius.	Dades tabulars i/o no estructurats, diversos i complets.	Informació clara sobre fonts i drets d'autor, comprensió de possibles biaixos i limitacions, identificació d'entitats.	NEPAccess és un pilot per desbloquejar l'accés dades relacionades amb la Llei Nacional de Política Mediambiental (NEPA) d'EUA mitjançant un model generatiu de IA. Inclourà funcions per redactar avaluacions d'impacte ambiental, anàlisi de dades, etc.

Figura 2. Cinco escenarios donde convergen los datos abiertos y la Inteligencia artificial, adaptado del informe “A Fourth Wave of Open Data? Exploring the Spectrum of Scenarios for Open Data and Generative AI”, de The Govlab, 2024.

Pots llegir el detall d'aquests escenaris en l'informe, on s'expliquen més exemples. A més, The Govlab també ha engegat un observatori on recopila exemples d'interseccions entre dades obertes i intel·ligència artificial generativa (Obre en nova finestra) (els inclosos en l'informe juntament amb altres addicionals). Qualsevol usuari pot proposar nous casos a través d'aquest aquest formulari . Aquests exemples s'utilitzaran per continuar estudiant aquest camp i millorar els escenaris actualment definits.

Entre els casos que es poden veure a la web, trobem una empresa espanyola: Tendios (Obre en nova finestra) . Se tracta d'una companyia de programari com a servei que ha desenvolupat un chatbot per ajudar en l'anàlisi de licitacions i concursos públics amb la finalitat de facilitar la concurrència. Aquesta eina està entrenada amb documents públics de licitacions governamentals.

Recomanacions per a publicadors de dades

Per extreure el màxim potencial de IA generativa, millorant la seva eficiència i eficàcia, l'informe destaca que els proveïdors de dades obertes han de fer front a alguns reptes, com la millora de la governança i la gestió de les dades. En aquest sentit, recullen cinc recomanacions:

Millorar la transparència i la documentació. A través de l'ús d'estàndards, diccionaris de dades, vocabularis, plantilles de metadades, etc. s'ajudarà a aplicar pràctiques de documentació sobre el llinatge, la qualitat, les consideracions ètiques i l'impacte dels resultats.
Mantenir la qualitat i la integritat. Es necessita formació i processos rutinaris que assegurin la qualitat, inclosa la validació automatitzada o manual, així com eines per actualitzar els conjunts de dades ràpidament quan sigui necessari. A més, són necessaris mecanismes per informar i abordar problemes que puguin sorgir relacionats amb les dades, a fi d'impulsar la transparència i facilitar la creació d'una comunitat entorn de/entorn dels conjunts de dades obertes.
Fomentar la interoperabilitat i els estàndards. Implica adoptar i promoure normes internacionals de dades, amb especial focus en les dades sintètiques i els continguts generats per IA .
Millorar l'accessibilitat i la facilitat d'ús. Supone la millora dels portals de dades obertes mitjançant algorismes de cerca intel·ligents i eines interactives. També és imprescindible establir un espai compartit on els publicadors de les dades i els usuaris puguin intercanviar opinions i manifestar necessitats, amb la finalitat de fer coincidir oferta i demanda.
Abordar les consideracions ètiques. Proteger als titulars de les dades és de màxima prioritat en parlar de dades obertes i IA generativa. Es necessiten comitès ètics i directrius ètiques exhaustives entorn de/entorn de la recopilació, l'intercanvi i l'ús de dades obertes, així com tecnologies avançades de preservació de la intimitat.

Estem davant un camp en contínua evolució que necessita d'actualització constant per part dels publicadors de dades. Aquests han de proporcionar conjunts de dades adequades tant tècnica com èticament, perquè els sistemes de IA generativa puguin aconseguir tot el seu potencial.

Font original de la notícia (Obre en nova finestra)

Datos oberts i IA generativa: sinergies i casos d'ús

El paper de les dades en la IA generativa

5 escenaris on convergeixen les dades obertes i la Intel·ligència artificial

Recomanacions per a publicadors de dades