accesskey_mod_content

Datos abertos e IA generativa: sinerxias e casos de uso

  • Escoitar
  • Copiar
  • Imprimir PDF
  • Compartir

05 setembro 2024

A Intelixencia Artificial ofrece ferramentas que están a cambiar o panorama da mercadotecnia, a comunicación e a creatividade.

A intelixencia artificial ( IA ) está a revolucionar a maneira en que creamos e consumimos contido(Abre en nova xanela) . Desde a automatización de tarefas repetitivas ata a personalización de experiencias, a IA ofrece ferramentas que están a cambiar o panorama da mercadotecnia, a comunicación e a creatividade(Abre en nova xanela) .

Estas intelixencias artificiais necesitan ser adestradas con datos(Abre en nova xanela) acordes aos obxectivos, sobre os que non discorran dereitos de autor. Por iso, os datos abertos álzanse como unha ferramenta de gran utilidade de face ao futuro da IA(Abre en nova xanela) .

Para profundar sobre esta temática, The Govlab publicou o informe “A Fourth Wave of Open Data? Exploring the Spectrum of Scenarios for Open Data and Generative AI” (Unha cuarta onda de datos abertos? Explorando o espectro de escenarios para os datos abertos e a IA generativa). Nel analízase a relación emerxente entre os datos abertos e a IA generativa, presentado diversos escenarios e recomendacións.

A seguir, recóllense as súas claves.

O papel dos datos na IA generativa

Os datos son a base fundamental dos modelos generativos de intelixencia artificial. Construír e adestrar este modelos require un gran volume de datos, cuxa escala e variedade está condicionada polos obxectivos e os casos de uso do modelo. 

O seguinte gráfico explica como os datos funcionan como unha peza crave tanto de entrada dun sistema de generativa, IA como de saída. Os datos recompílanse de diversas fontes, incluíndo portais de datos abertos, co fin de adestrar un modelo de de IA propósito xeral. Este modelo, posteriormente, será adaptado para realizar funcións específicas e diferentes tipos de análises, que xeran, á súa vez, novos datos, que poden utilizarse para seguir adestrando modelos.

Título: O Rol dos datos abertos na IA generativa. 1. Datos. Recompílanse, compran ou descargan de portais de datos abertos. 2. Formación. Os modelos xeneralizan patróns a partir de datos e aplícanos a novas aplicacións. 3. IA de propósito xeral. Os modelos IA adáptanse para propósitos específicos usando datasets relevantes 4. Adaptación para usos específicos. Pode implicar basear os modelos en datos específicos e pertinentes.  5.1. Respostas a preguntas. 5.2. Análise de sentimento. 5.3. Extracción de información. 5.4. Captación de imaxes. 5.5. Recoñecemento de obxectos. Xéranse novos datos a través dos comentarios de usuarios e os resultados do modelo, que poden utilizarse para seguir adestrando e perfeccionando o modelo IA. Fonte: adaptado do informe “A Fourth Wave of Open Data? Exploring the Spectrum of Scenarios for Open Data and Generative AI”, de The Govlab, 2024.

5 escenarios onde converxen os datos abertos e a Intelixencia artificial

Co fin de axudar aos provedores de datos abertos a “preparar” os este datos para a IA generativa, The Govlab definiu cinco escenarios que resumen cinco formas distintas nas que os datos abertos e a IA generativa poden cruzarse. Estes escenarios pretenden ser un punto de partida, que se irá ampliando no futuro, con base nos casos de uso dispoñibles.

Estes escenarios pretenden ser un punto de partida, que se irá ampliando no futuro, con base nos casos de uso dispoñibles.

Escenario

Función

Requisitos de calidade

Necesidades de metadatos

Exemplo

Preentrenamiento (Pretraining)

Adestramento de as capas fundacionais de un modelo de IA generativa con grandes cantidades de datos abiertos.

Alto volume de datos, diversos e representativos do dominio de aplicación e uso non estruturado

Información clara sobre a fonte dos datos.

Os datos do proxecto  Harmonized Landsat Sentinel-2 (HLS)  da NASA utilizáronse para adestrar o modelo fundacional geoespacial  watsonx.ai .

Adaptación (Adaptation)

Perfeccionamiento de un modelo preentrenado con datos abiertos específicos para tareas concretas, utilizando técnicas de fine-tuning or RAG.

Datos tabulares y/o no estructurados de alta precisión y relevancia para la tarea objetivo, con una distribución equilibrada.

Metadatado centrado na anotación e procedencia dos datos para achegar enriquecemento contextual.

Partindo do modelo  CHAMA 70B , o Goberno de Francia creou  LLaMandement , un  modelo de linguaxe grande  perfeccionado para a análise e a redacción de resumos de proxectos xurídicos. Para iso usaron datos de SIGNALE, a plataforma lexislativa do Goberno francés.

Inferencia e xeración de feitos relevantes (Inference and Insight Generation)

Extracción de información e patróns a partir de datos abertos mediante un modelo adestrado de IA generativa.

Datos tabulares de alta calidade, completos e coherentes.

Metadatado descritivo dos métodos de recollida de datos, información de orixe e control de versións.

Wobby  é unha interface generativa que acepta consultas en linguaxe natural e produce respostas en forma de resumos e visualizacións, utilizando conxuntos de datos de distintas oficinas como Eurostat ou o Banco Mundial.

Incremento de datos (Data Augmentation)

Aprovechamiento de los datos abiertos para generar datos sintéticos o proporcionar ontologías para extender la cantidad de datos de entrenamiento.

Datos tabulares e/ou non estruturados que sexan unha representación próxima á realidade, asegurando o cumprimento de consideracións éticas.

Transparencia sobre o proceso de xeración e posibles rumbos.

Un equipo de investigadores  adaptou o modelo Synthea  de EE.UU. para incluír datos demográficos e hospitalarios de Australia.  Utilizando este modelo, o equipo puido xerar aproximadamente 117.000 historiais médicos sintéticos específicos, aplicados á súa rexión.

Exploración aberta (Open-Ended Exploration)

Exploración e descubrimento de novos coñecementos e patróns en datos abertos mediante modelos generativos.

Datos tabulares e/ou non estruturados, diversos e completos.

Información clara sobre fontes e dereitos de autor, comprensión de posibles rumbos e limitacións, identificación de entidades.

NEPAccess  es un piloto para desbloquear el acceso datos relacionados con la Ley Nacional de Política Medioambiental (NEPA) de EE.UU. mediante un modelo generativo de IA. Incluirá funciones para redactar evaluaciones de impacto ambiental, análisis de datos, etc.

Figura 2. Cinco escenarios donde convergen los datos abiertos y la Inteligencia artificial, adaptado del informe “A Fourth Wave of Open Data? Exploring the Spectrum of Scenarios for Open Data and Generative AI”, de The Govlab, 2024.
 

Podes ler o detalle destes escenarios no informe, onde se explican máis exemplos. Ademais, The Govlab tamén puxo en marcha un  observatorio onde recompila exemplos de interseccións entre datos abertos e intelixencia artificial generativa(Abre en nova xanela) (los incluidos en el informe junto con otros adicionales). Cualquier usuario puede proponer nuevos casos a través de este formulario(Abre en nova xanela) . Dichos ejemplos se utilizarán para continuar estudiando este campo y mejorar los escenarios actualmente definidos.

Entre os casos que se poden ver na web, atopamos unha empresa española: Tendios(Abre en nova xanela) . Se trata dunha compañía de software como servizo que desenvolveu un chatbot para axudar na análise de licitacións e concursos públicos co fin de facilitar a concorrencia. Esta ferramenta está adestrada con documentos públicos de licitacións gobernamentais.

Recomendacións para publicadores de datos

Para extraer o máximo potencial de generativa, IA mellorando a súa eficiencia e eficacia, o informe destaca que os provedores de datos abertos deben facer fronte a algúns retos, como a mellora da gobernación e a xestión dos datos. Neste sentido, recollen cinco recomendacións:

  1. Mellorar a transparencia e a documentación. A través do uso de estándares, dicionarios de datos, vocabularios, persoais de metadatos, etc. axudarase a aplicar prácticas de documentación  sobre a liñaxe, a calidade, as consideracións éticas e o impacto dos resultados.
  2. Manter a calidade e a integridade. Necesítase formación e procesos rutineiros que aseguren a calidade, incluída a validación automatizada ou manual, así como ferramentas para actualizar os conxuntos de datos rapidamente cando sexa necesario. Ademais, son necesarios mecanismos para informar e abordar problemas que poidan xurdir relacionados cos datos, co fin de impulsar a transparencia e facilitar a creación dunha comunidade ao redor dos conxuntos de datos abertos.
  3. Fomentar a interoperabilidade e os estándares. Implica adoptar e promover normas internacionais de datos, con especial foco nos datos sintéticos e os contidos xerados por .. IA
  4. Mellorar a accesibilidade e a facilidade de uso. Supone a mellora dos portais de datos abertos mediante algoritmos de procura intelixentes e ferramentas interactivas. Tamén é imprescindible establecer un espazo compartido onde os publicadores dos datos e os usuarios poidan intercambiar opinións e manifestar necesidades, co fin de facer coincidir oferta e demanda.
  5. Abordar as consideracións éticas. Proteger aos titulares dos datos é de máxima prioridade ao falar de datos abertos e IA generativa. Necesítanse comités éticos e directrices éticas exhaustivas ao redor da recompilación, o intercambio e o uso de datos abertos, así como tecnoloxías avanzadas de preservación da intimidade.

Estamos ante un campo en continua evolución que necesita de actualización constante por parte dos publicadores de datos. Estes deben proporcionar conxuntos de datos adecuados tanto técnica como eticamente, para que os sistemas de  IA generativa poidan alcanzar todo o seu potencial.

Fonte orixinal da noticia(Abre en nova xanela)

  • Intelixencia Artificial e Blockchain