Datos abiertos e IA generativa: sinergias y casos de uso

A intelixencia artificial ( IA ) está a revolucionar a maneira en que creamos e consumimos contido (Abre en nova xanela) . Desde a automatización de tarefas repetitivas ata a personalización de experiencias, a IA ofrece ferramentas que están a cambiar o panorama da mercadotecnia, a comunicación e a creatividade .

Estas intelixencias artificiais necesitan ser adestradas con datos (Abre en nova xanela) acordes aos obxectivos, sobre os que non discorran dereitos de autor. Por iso, os datos abertos álzanse como unha ferramenta de gran utilidade de face ao futuro da IA .

Para profundar sobre esta temática, The Govlab publicou o informe “A Fourth Wave of Open Data? Exploring the Spectrum of Scenarios for Open Data and Generative AI” (Unha cuarta onda de datos abertos? Explorando o espectro de escenarios para os datos abertos e a IA generativa). Nel analízase a relación emerxente entre os datos abertos e a IA generativa, presentado diversos escenarios e recomendacións.

A seguir, recóllense as súas claves.

O papel dos datos na IA generativa

Os datos son a base fundamental dos modelos generativos de intelixencia artificial. Construír e adestrar este modelos require un gran volume de datos, cuxa escala e variedade está condicionada polos obxectivos e os casos de uso do modelo.

O seguinte gráfico explica como os datos funcionan como unha peza crave tanto de entrada dun sistema de generativa, IA como de saída. Os datos recompílanse de diversas fontes, incluíndo portais de datos abertos, co fin de adestrar un modelo de de IA propósito xeral. Este modelo, posteriormente, será adaptado para realizar funcións específicas e diferentes tipos de análises, que xeran, á súa vez, novos datos, que poden utilizarse para seguir adestrando modelos.

5 escenarios onde converxen os datos abertos e a Intelixencia artificial

Co fin de axudar aos provedores de datos abertos a “preparar” os este datos para a IA generativa, The Govlab definiu cinco escenarios que resumen cinco formas distintas nas que os datos abertos e a IA generativa poden cruzarse. Estes escenarios pretenden ser un punto de partida, que se irá ampliando no futuro, con base nos casos de uso dispoñibles.

Estes escenarios pretenden ser un punto de partida, que se irá ampliando no futuro, con base nos casos de uso dispoñibles.

Escenario	Función	Requisitos de calidade	Necesidades de metadatos	Exemplo
Preentrenamiento (Pretraining)	Adestramento de as capas fundacionais de un modelo de IA generativa con grandes cantidades de datos abiertos.	Alto volume de datos, diversos e representativos do dominio de aplicación e uso non estruturado	Información clara sobre a fonte dos datos.	Os datos do proxecto Harmonized Landsat Sentinel-2 (HLS) da NASA utilizáronse para adestrar o modelo fundacional geoespacial watsonx.ai .
Adaptación (Adaptation)	Perfeccionamiento de un modelo preentrenado con datos abiertos específicos para tareas concretas, utilizando técnicas de fine-tuning or RAG.	Datos tabulares e/ou non estruturados de alta precisión e relevancia para a tarefa obxectivo, cunha distribución equilibrada.	Metadatado centrado na anotación e procedencia dos datos para achegar enriquecemento contextual.	Partindo do modelo CHAMA 70B , o Goberno de Francia creou LLaMandement , un modelo de linguaxe grande perfeccionado para a análise e a redacción de resumos de proxectos xurídicos. Para iso usaron datos de SIGNALE, a plataforma lexislativa do Goberno francés.
Inferencia e xeración de feitos relevantes (Inference and Insight Generation)	Extracción de información e patróns a partir de datos abertos mediante un modelo adestrado de IA generativa.	Datos tabulares de alta calidade, completos e coherentes.	Metadatado descritivo dos métodos de recollida de datos, información de orixe e control de versións.	Wobby é unha interface generativa que acepta consultas en linguaxe natural e produce respostas en forma de resumos e visualizacións, utilizando conxuntos de datos de distintas oficinas como Eurostat ou o Banco Mundial.
Incremento de datos (Data Augmentation)	Aprovechamiento dos datos abertos para xerar datos sintéticos ou proporcionar ontologías para estender a cantidade de datos de adestramento.	Datos tabulares e/ou non estruturados que sexan unha representación próxima á realidade, asegurando o cumprimento de consideracións éticas.	Transparencia sobre o proceso de xeración e posibles rumbos.	Un equipo de investigadores adaptou o modelo Synthea de EE.UU. para incluír datos demográficos e hospitalarios de Australia. Utilizando este modelo, o equipo puido xerar aproximadamente 117.000 historiais médicos sintéticos específicos, aplicados á súa rexión.
Exploración aberta (Open-Ended Exploration)	Exploración e descubrimento de novos coñecementos e patróns en datos abertos mediante modelos generativos.	Datos tabulares e/ou non estruturados, diversos e completos.	Información clara sobre fontes e dereitos de autor, comprensión de posibles rumbos e limitacións, identificación de entidades.	NEPAccess é un piloto para desbloquear o acceso datos relacionados coa Lei Nacional de Política Ambiental (NEPA) de EE.UU. mediante un modelo generativo de IA. Incluirá funcións para redactar avaliacións de impacto ambiental, análise de datos, etc.

Figura 2. Cinco escenarios donde convergen los datos abiertos y la Inteligencia artificial, adaptado del informe “A Fourth Wave of Open Data? Exploring the Spectrum of Scenarios for Open Data and Generative AI”, de The Govlab, 2024.

Podes ler o detalle destes escenarios no informe, onde se explican máis exemplos. Ademais, The Govlab tamén puxo en marcha un observatorio onde recompila exemplos de interseccións entre datos abertos e intelixencia artificial generativa (Abre en nova xanela) (os incluídos no informe xunto con outros adicionais). Calquera usuario pode propor novos casos a través deste este formulario . Este exemplos utilizaranse para continuar estudando este campo e mellorar os escenarios actualmente definidos.

Entre os casos que se poden ver na web, atopamos unha empresa española: Tendios (Abre en nova xanela) . Se trata dunha compañía de software como servizo que desenvolveu un chatbot para axudar na análise de licitacións e concursos públicos co fin de facilitar a concorrencia. Esta ferramenta está adestrada con documentos públicos de licitacións gobernamentais.

Recomendacións para publicadores de datos

Para extraer o máximo potencial de generativa, IA mellorando a súa eficiencia e eficacia, o informe destaca que os provedores de datos abertos deben facer fronte a algúns retos, como a mellora da gobernación e a xestión dos datos. Neste sentido, recollen cinco recomendacións:

Mellorar a transparencia e a documentación. A través do uso de estándares, dicionarios de datos, vocabularios, persoais de metadatos, etc. axudarase a aplicar prácticas de documentación sobre a liñaxe, a calidade, as consideracións éticas e o impacto dos resultados.
Manter a calidade e a integridade. Necesítase formación e procesos rutineiros que aseguren a calidade, incluída a validación automatizada ou manual, así como ferramentas para actualizar os conxuntos de datos rapidamente cando sexa necesario. Ademais, son necesarios mecanismos para informar e abordar problemas que poidan xurdir relacionados cos datos, co fin de impulsar a transparencia e facilitar a creación dunha comunidade ao redor dos conxuntos de datos abertos.
Fomentar a interoperabilidade e os estándares. Implica adoptar e promover normas internacionais de datos, con especial foco nos datos sintéticos e os contidos xerados por .. IA
Mellorar a accesibilidade e a facilidade de uso. Supone a mellora dos portais de datos abertos mediante algoritmos de procura intelixentes e ferramentas interactivas. Tamén é imprescindible establecer un espazo compartido onde os publicadores dos datos e os usuarios poidan intercambiar opinións e manifestar necesidades, co fin de facer coincidir oferta e demanda.
Abordar as consideracións éticas. Proteger aos titulares dos datos é de máxima prioridade ao falar de datos abertos e IA generativa. Necesítanse comités éticos e directrices éticas exhaustivas ao redor da recompilación, o intercambio e o uso de datos abertos, así como tecnoloxías avanzadas de preservación da intimidade.

Estamos ante un campo en continua evolución que necesita de actualización constante por parte dos publicadores de datos. Estes deben proporcionar conxuntos de datos adecuados tanto técnica como eticamente, para que os sistemas de IA generativa poidan alcanzar todo o seu potencial.

Fonte orixinal da noticia (Abre en nova xanela)

Datos abertos e IA generativa: sinerxias e casos de uso

O papel dos datos na IA generativa

5 escenarios onde converxen os datos abertos e a Intelixencia artificial

Recomendacións para publicadores de datos