accesskey_mod_content

Datos abiertos e IA: una relación simbiótica para el progreso

  • Escuchar
  • Copiar
  • Imprimir PDF
  • Compartir

"Noticia disponible únicamente con fines históricos y de hemeroteca. La información y enlaces mostrados se corresponden con los que estaban operativos a la fecha de su publicación. No se garantiza que continúen activos actualmente".

13 junio 2023

Dado que los sistemas de Inteligencia Artificial (IA) son modelos matemáticos complejos entrenados en datos, es posible combinar ambos aspectos para liberar el potencial de este poderoso dúo

Estos sistemas están diseñados para procesar y analizar grandes volúmenes de datos con el fin de reconocer patrones y hacer predicciones. Los sistemas de IA son cada vez más precisos y sofisticados debido, en parte, a los avances en las técnicas y algoritmos utilizados para la IA, el acceso a una mayor potencia de procesamiento informático y la mayor disponibilidad de datos.

Con estos desarrollos tecnológicos, el uso de la IA es cada vez más común en todos los sectores de Europa. La figura 1 muestra cómo en 2021 el porcentaje de empresas que utilizan tecnologías de IA variaba entre los países de Europa. Para fomentar el uso de la IA en toda Europa, la UE puso en marcha la  Estrategia Europea de IA(Abre en nueva ventana)  con el objetivo de impulsar la investigación y la capacidad industrial, garantizando al mismo tiempo la seguridad y los derechos fundamentales.

Empresas de la UE que utilizan tecnología de IA, 2021

Los datos son un componente crítico de los sistemas de IA. Esta historia destaca la conexión entre los datos abiertos y el rendimiento de los sistemas de IA. Con casos de uso de la vida real, esta historia muestra cómo estos dos temas están interrelacionados y dependen el uno del otro para fomentar la  transición digital de Europa(Abre en nueva ventana) .

Cómo los datos abiertos y la IA están estrechamente relacionados

Los datos abiertos y la IA tienen el potencial de apoyar y mejorar las capacidades de cada uno. Por un lado, los datos abiertos pueden mejorar los sistemas de IA. En general, exponer los sistemas de IA a un mayor volumen y variedad de datos aumenta la posibilidad de que el sistema devuelva predicciones precisas y útiles. Como tal, los datos abiertos pueden ser un suministro de grandes cantidades de información diversa para los sistemas de IA. De esta manera, la disponibilidad de datos abiertos contribuye a un mejor rendimiento de la IA. Por ejemplo, un sistema de IA entrenado para predecir los  patrones de consumo de los(Abre en nueva ventana)  consumidores en Europa probablemente funcionará mejor si incluye una selección representativa de transacciones de bienes y servicios por parte de consumidores en diferentes países, municipios y grupos de ingresos.

Por otro lado La IA puede desbloquear valor adicional de los datos abiertos. La IA puede analizar grandes volúmenes de datos e identificar tendencias y patrones que podrían no haber sido revelados a través de otras técnicas de análisis. Los datos abiertos contienen información rica y patrones complejos de los que se pueden derivar conocimientos. Como una poderosa herramienta de análisis, la IA puede aprovechar el valor de los datos abiertos. Por ejemplo, un sistema de IA entrenado para predecir  incendios forestales(Abre en nueva ventana)  puede buscar patrones a través de datos meteorológicos, imágenes satelitales y tendencias históricas que las comparaciones estadísticas estándar no pueden identificar.

La IA puede beneficiarse de la amplitud de los datos abiertos

Los datos abiertos abarcan una amplia gama de áreas temáticas. Esta variedad de datos amplía los posibles casos de uso para los que se pueden desarrollar sistemas de IA, lo que hace posibles nuevos productos y servicios impulsados por IA. Estos casos de uso solo se pueden desarrollar si los datos relevantes están disponibles y son de fácil acceso. La libre disponibilidad de diversos conjuntos de datos, como a través de datos abiertos, es esencial para impulsar la innovación y brindar nuevas oportunidades económicas. La esperanza es que los sistemas innovadores de IA puedan usarse para ayudar a resolver los desafíos que enfrenta la sociedad, creando valor socioeconómico.

El diverso conjunto de información que los datos abiertos pueden proporcionar a los sistemas de IA especialmente puede permitir aplicaciones multidisciplinarias que combinan datos sobre varios temas para obtener nuevos conocimientos. Por ejemplo, un conjunto de datos meteorológicos se puede utilizar para hacer predicciones meteorológicas. Pero combinado con datos sobre genética de semillas, características del suelo y condiciones ambientales, se puede entrenar un sistema de IA para tener un buen conocimiento contextual de las  variables que afectan la producción agrícola(Abre en nueva ventana) . Dicho sistema podría utilizarse para ayudar a la toma de decisiones para aumentar el rendimiento de los cultivos, prevenir enfermedades de las plantas u optimizar otras decisiones comerciales.

La IA puede beneficiarse de la profundidad de los datos abiertos

Si bien la amplitud de las áreas temáticas cubiertas por los datos abiertos permite amplios casos de uso para los sistemas de IA, tener una gran cantidad de datos abiertos disponibles en un caso de uso específico permite que los sistemas de IA funcionen mejor. Tomemos, por ejemplo, un sistema de IA desarrollado para reconocer edificios residenciales. Si la IA se entrena solo con imágenes capturadas en el verano de mansiones en el campo, el modelo tendrá un mal desempeño cuando se le pida que reconozca un apartamento de la ciudad como un edificio residencial. Por lo tanto, el modelo debe ser entrenado en un conjunto integral de ejemplos para comprender las variaciones de lo que se considera un edificio residencial (en este caso, factores como el estilo arquitectónico, el tamaño del edificio y el entorno circundante pueden ser relevantes).

Los datos que representan exhaustivamente el tema exponen los sistemas de IA a una gama más amplia de escenarios y variaciones. En última instancia, esto permite que los modelos de IA funcionen mejor en situaciones del mundo real y generalicen su conocimiento cuando se enfrentan a nuevos datos (como una imagen de una casa individual que el modelo no ha visto antes). Los sistemas de IA entrenados con datos no representativos o incompletos corren el riesgo de hacer predicciones sesgadas y ser poco confiables.

La IA de alta calidad se basa en datos abiertos de alta calidad

La integridad de los datos abiertos contribuye a la capacidad de los sistemas de IA para generalizar a ejemplos no vistos una vez que se implementan en la operación del "mundo real", pero también contribuye al concepto de calidad de los datos. Algunas características de la calidad de los datos incluyen la integridad, relevancia, consistencia, uniformidad y confiabilidad de los datos para el caso de uso que se está desarrollando. La Figura 2 muestra la relación entre seis dimensiones de calidad de datos y el rendimiento de tres tipos de algoritmos de IA de un  artículo  de investigadores de la Universidad de Potsdam. Por ejemplo, la figura muestra que la integridad (sin datos faltantes) y la precisión de las características (sin datos erróneos) tienen un fuerte efecto en el rendimiento de los tres algoritmos de IA. Por otro lado, los algoritmos de agrupación se ven menos afectados por la precisión del objetivo (sin etiquetado incorrecto de los datos), la unicidad (sin datos redundantes o duplicados) y el equilibrio de clases (tener grupos igualmente representados).

Efectos de las dimensiones de calidad de datos en el aprendizaje automático

Varias iniciativas de datos abiertos en el campo científico demuestran el impacto de los repositorios abiertos con catálogos estructurados de datos y formatos de datos estandarizados. Por ejemplo, el gobierno alemán financia una infraestructura nacional de datos de investigación que incluye un consorcio (llamado  NFDI4Chem(Abre en nueva ventana) ) que hace que los datos químicos se puedan encontrar, accesibles, interoperables y reutilizables mediante el establecimiento de las mejores prácticas, incluidas las estructuras químicas legibles por máquina. Estas bases de datos suelen incluir un proceso de revisión de calidad o un método de curación para garantizar la calidad y confiabilidad de los datos.

Una mayor demanda de datos abiertos para nuevos productos y servicios podría alentar la publicación de más conjuntos de datos y mejoras en la calidad de los datos. Por lo tanto, es prometedor ver en el  Informe de Madurez de Datos Abiertos 2022(Abre en nueva ventana)  cómo los países europeos están trabajando para mejorar la calidad de los datos publicados en sus portales nacionales de datos abiertos.

Los datos abiertos permiten aplicaciones de IA en el mundo real

Hay varios ejemplos de datos abiertos que se utilizan en sistemas de IA para aplicaciones novedosas en Europa.

Como primer ejemplo, la aplicación croata  CROZ RenEUwable(Abre en nueva ventana)  combina datos climáticos y energéticos en un modelo de aprendizaje automático que proporciona a los ciudadanos recomendaciones personales para adoptar decisiones más sostenibles sobre energía. La aplicación impulsada por IA, que ganó el  EU Datathon 2022(Abre en nueva ventana)  en la categoría de 'Un Pacto Verde Europeo', se basa en datos abiertos seleccionados por el equipo en función de la calidad, integridad, consistencia, puntualidad y usabilidad.

Otro ejemplo es un proyecto para la  Administración de Catastro y Topografía(Abre en nueva ventana)  de Luxemburgo que ilustra el uso de la IA para analizar imágenes aéreas guardadas en bases de  datos geográficas(Abre en nueva ventana) . La figura 3 muestra una serie anual de tales fotografías aéreas. Estas bases de datos deben actualizarse y mantenerse continuamente, con nuevas imágenes aéreas añadidas cada año. Esta tarea incluye la identificación de todos los edificios recién construidos, demolidos o actualizados. Realizar dicha inspección manualmente es muy laborioso, por lo que el gobierno luxemburgués lanzó un proyecto para desarrollar una prueba de concepto de una herramienta basada en IA que pueda identificar automáticamente los cambios en los edificios. El proyecto produjo resultados satisfactorios y un objetivo para las versiones posteriores es incluir otros objetos topográficos como senderos para caminar.

Cambios paisajísticos en Beaufort, Luxemburgo, 2001-2022

Como ejemplo final de caso de uso, la Comisión Europea lanzó la Iniciativa Europea de  Imágenes del Cáncer(Abre en nueva ventana)  para aprovechar los datos y las tecnologías digitales, como la IA, para combatir el cáncer. Esta iniciativa tiene como objetivo crear un  conjunto de datos abierto(Abre en nueva ventana)  que vincule todos los recursos y bases de datos existentes en toda Europa, trabajando hacia una infraestructura más abierta, disponible y fácil de usar para las imágenes del cáncer. Se espera que la infraestructura se complete en diciembre de 2023, después de lo cual los proveedores de datos podrán conectarse a la plataforma.

Conclusión

El potencial de los sistemas de IA en la sociedad es enorme. Cuando se combinan con datos abiertos, se hacen posibles nuevas oportunidades tanto para obtener nuevos conocimientos de los datos abiertos como para impulsar los sistemas de IA para nuevos usos. La libre disponibilidad de datos abiertos proporcionados a todos los ciudadanos sin límites en su reutilización permite a las empresas implementar estos datos en sus sistemas de IA. Los nuevos casos de uso están respaldados por la diversidad de datos abiertos tanto en su amplitud potencial, que ofrecería múltiples casos de uso para sistemas de IA, como en su profundidad potencial, que ofrecería una representación profunda de un caso de uso específico. Las iniciativas políticas que promueven el intercambio de determinados conjuntos de datos apoyan la diversidad de los datos abiertos en Europa.

Aumentar el acceso a datos abiertos de alta calidad es una prioridad para desbloquear la sinergia entre los datos abiertos y la IA. Las mejoras adicionales en la calidad de los datos están respaldadas por políticas e iniciativas comunitarias que imponen estándares de calidad y métodos de curación en datos abiertos. Data.europa.eu contribuye a este objetivo mediante, entre otros medios, su  panel de control de calidad(Abre en nueva ventana)  de metadatos que pretende ayudar a los proveedores de datos y portales de datos nacionales a evaluar sus metadatos en función de diversos indicadores, como la accesibilidad y la reutilización.

Fuente original de la noticia(Abre en nueva ventana)

  • Información y datos del sector público
  • Inteligencia Artificial y Blockchain