accesskey_mod_content

Datos abiertos e IA generativa: sinergias y casos de uso

  • Escuchar
  • Copiar
  • Imprimir PDF
  • Compartir

05 septiembre 2024

La Inteligencia Artificial ofrece herramientas que están cambiando el panorama del marketing, la comunicación y la creatividad.

La inteligencia artificial (IA) está revolucionando la manera en que creamos y consumimos contenido(Abre en nueva ventana) . Desde la automatización de tareas repetitivas hasta la personalización de experiencias, la IA ofrece herramientas que están cambiando el panorama del marketing, la comunicación y la creatividad(Abre en nueva ventana) .

Estas inteligencias artificiales necesitan ser entrenadas con datos(Abre en nueva ventana) acordes a los objetivos, sobre los que no discurran derechos de autor. Por ello, los datos abiertos se alzan como una herramienta de gran utilidad de cara al futuro de la IA(Abre en nueva ventana) .

Para profundizar sobre esta temática, The Govlab ha publicado el informe “A Fourth Wave of Open Data? Exploring the Spectrum of Scenarios for Open Data and Generative AI” (¿Una cuarta ola de datos abiertos? Explorando el espectro de escenarios para los datos abiertos y la IA generativa). En él se analiza la relación emergente entre los datos abiertos y la IA generativa, presentado diversos escenarios y recomendaciones.

A continuación, se recogen sus claves.

El papel de los datos en la IA generativa

Los datos son la base fundamental de los modelos generativos de inteligencia artificial. Construir y entrenar dichos modelos requiere un gran volumen de datos, cuya escala y variedad está condicionada por los objetivos y los casos de uso del modelo. 

El siguiente gráfico explica cómo los datos funcionan como una pieza clave tanto de entrada de un sistema de IA generativa, como de salida. Los datos se recopilan de diversas fuentes, incluyendo portales de datos abiertos, con el fin de entrenar un modelo de IA de propósito general. Este modelo, posteriormente, será adaptado para realizar funciones específicas y diferentes tipos de análisis, que generan, a su vez, nuevos datos, que pueden utilizarse para seguir entrenando modelos.

Título: El Rol de los datos abiertos en la IA generativa. 1. Datos. Se recopilan, compran o descargan de portales de datos abiertos. 2. Formación. Los modelos generalizan patrones a partir de datos y los aplican a nuevas aplicaciones. 3. IA de propósito general. Los modelos IA se adaptan para propósitos específicos usando datasets relevantes 4. Adaptación para usos específicos. Puede implicar basar los modelos en datos específicos y pertinentes.  5.1. Respuestas a preguntas. 5.2. Análisis de sentimiento. 5.3. Extracción de información. 5.4. Captación de imágenes. 5.5. Reconocimiento de objetos. Se generan nuevos datos a través de los comentarios de usuarios y los resultados del modelo, que pueden utilizarse para seguir entrenando y perfeccionando el modelo IA. Fuente: adaptado del informe “A Fourth Wave of Open Data? Exploring the Spectrum of Scenarios for Open Data and Generative AI”, de The Govlab, 2024.

5 escenarios donde convergen los datos abiertos y la Inteligencia artificial

Con el fin de ayudar a los proveedores de datos abiertos a “preparar” dichos datos para la IA generativa, The Govlab ha definido cinco escenarios que resumen cinco formas distintas en las que los datos abiertos y la IA generativa pueden cruzarse. Estos escenarios pretenden ser un punto de partida, que se irá ampliando en el futuro, en base a los casos de uso disponibles.

Estos escenarios pretenden ser un punto de partida, que se irá ampliando en el futuro, en base a los casos de uso disponibles.

Escenario

Función

Requisitos de calidad

Necesidades de metadatos

Ejemplo

Preentrenamiento (Pretraining)

Entrenamiento de las capas fundacionales de un modelo de IA generativa con grandes cantidades de datos abiertos.

Alto volumen de datos, diversos y representativos del dominio de aplicación y uso no estructurado

Información clara sobre la fuente de los datos.

Los datos del proyecto  Harmonized Landsat Sentinel-2 (HLS)  de la NASA se utilizaron para entrenar el modelo fundacional geoespacial  watsonx.ai .

Adaptación (Adaptation)

Perfeccionamiento de un modelo preentrenado con datos abiertos específicos para tareas concretas, utilizando técnicas de fine-tuning or RAG.

Datos tabulares y/o no estructurados de alta precisión y relevancia para la tarea objetivo, con una distribución equilibrada.

Metadatado centrado en la anotación y procedencia de los datos para aportar enriquecimiento contextual.

Partiendo del modelo  LLaMA 70B , el Gobierno de Francia creó  LLaMandement , un  modelo de lenguaje grande  perfeccionado para el análisis y la redacción de resúmenes de proyectos jurídicos. Para ello usaron datos de SIGNALE, la plataforma legislativa del Gobierno francés.

Inferencia y generación de hechos relevantes (Inference and Insight Generation)

Extracción de información y patrones a partir de datos abiertos mediante un modelo entrenado de IA generativa.

Datos tabulares de alta calidad, completos y coherentes.

Metadatado descriptivo de los métodos de recogida de datos, información de origen y control de versiones.

Wobby  es una interfaz generativa que acepta consultas en lenguaje natural y produce respuestas en forma de resúmenes y visualizaciones, utilizando conjuntos de datos de distintas oficinas como Eurostat o el Banco Mundial.

Incremento de datos (Data Augmentation)

Aprovechamiento de los datos abiertos para generar datos sintéticos o proporcionar ontologías para extender la cantidad de datos de entrenamiento.

Datos tabulares y/o no estructurados que sean una representación cercana a la realidad, asegurando el cumplimiento de consideraciones éticas.

Transparencia sobre el proceso de generación y posibles sesgos.

Un equipo de investigadores  adaptó el modelo Synthea  de EE.UU. para incluir datos demográficos y hospitalarios de Australia.  Utilizando este modelo, el equipo pudo generar aproximadamente 117.000 historiales médicos sintéticos específicos, aplicados a su región.

Exploración abierta (Open-Ended Exploration)

Exploración y descubrimiento de nuevos conocimientos y patrones en datos abiertos mediante modelos generativos.

Datos tabulares y/o no estructurados, diversos y completos.

Información clara sobre fuentes y derechos de autor, comprensión de posibles sesgos y limitaciones, identificación de entidades.

NEPAccess  es un piloto para desbloquear el acceso datos relacionados con la Ley Nacional de Política Medioambiental (NEPA) de EE.UU. mediante un modelo generativo de IA. Incluirá funciones para redactar evaluaciones de impacto ambiental, análisis de datos, etc.

Figura 2. Cinco escenarios donde convergen los datos abiertos y la Inteligencia artificial, adaptado del informe “A Fourth Wave of Open Data? Exploring the Spectrum of Scenarios for Open Data and Generative AI”, de The Govlab, 2024.
 

Puedes leer el detalle de estos escenarios en el informe, donde se explican más ejemplos. Además, The Govlab también ha puesto en marcha un  observatorio donde recopila ejemplos de intersecciones entre datos abiertos e inteligencia artificial generativa(Abre en nueva ventana) (los incluidos en el informe junto con otros adicionales). Cualquier usuario puede proponer nuevos casos a través de este formulario(Abre en nueva ventana) . Dichos ejemplos se utilizarán para continuar estudiando este campo y mejorar los escenarios actualmente definidos.

Entre los casos que se pueden ver en la web, encontramos una empresa española: Tendios(Abre en nueva ventana) . Se trata de una compañía de software como servicio que ha desarrollado un chatbot para ayudar en el análisis de licitaciones y concursos públicos con el fin de facilitar la concurrencia. Esta herramienta está entrenada con documentos públicos de licitaciones gubernamentales.

Recomendaciones para publicadores de datos

Para extraer el máximo potencial de IA generativa, mejorando su eficiencia y eficacia, el informe destaca que los proveedores de datos abiertos deben hacer frente a algunos retos, como la mejora de la gobernanza y la gestión de los datos. En este sentido, recogen cinco recomendaciones:

  1. Mejorar la transparencia y la documentación. A través del uso de estándares, diccionarios de datos, vocabularios, plantillas de metadatos, etc. se ayudará a aplicar prácticas de documentación  sobre el linaje, la calidad, las consideraciones éticas y el impacto de los resultados.
  2. Mantener la calidad y la integridad. Se necesita formación y procesos rutinarios que aseguren la calidad, incluida la validación automatizada o manual, así como herramientas para actualizar los conjuntos de datos rápidamente cuando sea necesario. Además, son necesarios mecanismos para informar y abordar problemas que puedan surgir relacionados con los datos, a fin de impulsar la transparencia y facilitar la creación de una comunidad en torno a los conjuntos de datos abiertos.
  3. Fomentar la interoperabilidad y los estándares. Implica adoptar y promover normas internacionales de datos, con especial foco en los datos sintéticos y los contenidos generados por IA.
  4. Mejorar la accesibilidad y la facilidad de uso. Supone la mejora de los portales de datos abiertos mediante algoritmos de búsqueda inteligentes y herramientas interactivas. También es imprescindible establecer un espacio compartido donde los publicadores de los datos y los usuarios puedan intercambiar opiniones y manifestar necesidades, con el fin de hacer coincidir oferta y demanda.
  5. Abordar las consideraciones éticas. Proteger a los titulares de los datos es de máxima prioridad al hablar de datos abiertos e IA generativa. Se necesitan comités éticos y directrices éticas exhaustivas en torno a la recopilación, el intercambio y el uso de datos abiertos, así como tecnologías avanzadas de preservación de la intimidad.

Estamos ante un campo en continua evolución que necesita de actualización constante por parte de los publicadores de datos. Estos deben proporcionar conjuntos de datos adecuados tanto técnica como éticamente, para que los sistemas de IA generativa puedan alcanzar todo su potencial.

Fuente original de la noticia(Abre en nueva ventana)

  • Inteligencia Artificial y Blockchain