accesskey_mod_content

El uso del big data en el sector público de la Unión Europea

  • Escuchar
  • Copiar
  • Imprimir PDF
  • Compartir

04 agosto 2023

El uso del big data ayuda al sector público de la Unión Europea a superar los desafíos relacionados con los datos

La Comisión Europea está ayudando a abordar el desafío de la reutilización de datos del sector público (RISP) a nivel europeo con un servicio llamado  infraestructura de prueba de big data(Abre en nueva ventana)  (BDTI) . La BDTI ofrece a las administraciones públicas un conjunto de herramientas de código abierto convencionales para el almacenamiento, procesamiento y análisis de datos, alojadas en la nube y de forma gratuita. Se ofrece a los funcionarios de todos los niveles de gobierno en Europa para que puedan ejecutar de forma autónoma proyectos piloto que demuestren el valor que los datos pueden aportar a la formulación de políticas o la administración. La sociedad civil, la academia e incluso el sector privado pueden unirse a los proyectos piloto, siempre que un organismo de la administración pública esté en el centro del caso de uso.

Esta historia de datos profundiza en el servicio BDTI y sus capacidades. Después de presentar el servicio y sus características, un caso de uso mostrará la implementación práctica y las capacidades de la plataforma. El caso de uso demuestra la aplicación de una variedad de herramientas de código abierto, reutilizando múltiples conjuntos de datos abiertos, complementados con varios conjuntos de datos ficticios. Como la plataforma se basa en herramientas de código abierto, esta historia de datos ofrece información valiosa para cualquier persona interesada en la reutilización de software y datos.

La Infraestructura de Pruebas de Big Data de la UE: qué es y cómo funciona

La Infraestructura de Pruebas de Big Data de la UE , BDTI,  se creó en 2019, como parte del   Programa Europa Digital(Abre en nueva ventana) , que tiene como objetivo acelerar la recuperación económica de Europa y dar forma a la transformación digital de la sociedad y la economía de Europa, aumentando la fácil disponibilidad, calidad y usabilidad de los datos públicos. información del sector en cumplimiento de los requisitos de la  directiva europea de datos abiertos(Abre en nueva ventana) .

El propósito de la BDTI es fomentar la reutilización de los datos del sector público y permitir un sector público informado por los datos en los Estados miembros de la UE. Al proporcionar un entorno de prueba de análisis gratuito con herramientas de código abierto, la BDTI permite a las administraciones públicas crear prototipos de soluciones antes de implementarlas en el entorno de producción en sus propias instalaciones.

Las aplicaciones BDTI se ofrecen como un servicio en la nube, lo que permite a los usuarios experimentar con datos en un proyecto piloto. Una vez que finaliza el proyecto, los usuarios pueden llevarse el código fuente y los datos para continuar el trabajo utilizando la nube de su elección u otros recursos. La plataforma consta de herramientas de código abierto y la infraestructura de nube necesaria, que incluye máquinas virtuales, clústeres de análisis, instalaciones de almacenamiento e instalaciones de red. Para obtener más información sobre las herramientas disponibles, puede consultar  la página de oferta de servicios(Abre en nueva ventana) .

Casos de uso y casos de éxito

Para demostrar cómo funciona la plataforma y cómo usarla, presenta varias  historias de éxito(Abre en nueva ventana)  de la vida real . La figura 1 proporciona una lista de estas historias de éxito. Por ejemplo,  Eurostat y sus socios(Abre en nueva ventana)  utilizaron el BDTI para experimentar con datos en el desarrollo de estadísticas oficiales. En este proyecto piloto, se utilizaron datos abiertos de anuncios de empleo en línea para proporcionar información oportuna sobre los mercados laborales europeos.

Otras historias de éxito de la vida real son la minería de textos por parte de los servicios de Salud de la ciudad de Valencia, la  optimización de la contratación pública por parte de la Agencia Noruega de Digitalización(Abre en nueva ventana)  , los esfuerzos de intercambio de datos por parte de la European Blood Alliance y el trabajo para facilitar la  comprensión del impacto de COVID-19. sobre la ciudad de Florencia(Abre en nueva ventana)  .

Resumen de las historias de éxito de BDTI

Además, el sitio web de BDTI proporciona múltiples  casos de uso(Abre en nueva ventana)  que muestran las capacidades de la plataforma, basados ​​en datos abiertos. Por ejemplo, el  caso de uso de análisis de búsqueda(Abre en nueva ventana)  se basa en el conjunto de datos abiertos  de CORDIS(Abre en nueva ventana) , y el caso de uso de análisis de código bajo funciona con  EMHIRES  (serie temporal de generación de RES de alta resolución derivada de meteorología europea para escenarios presentes y futuros) - conjunto de datos abierto sobre generación de energía solar.

En las siguientes secciones de esta historia de datos, presentamos el caso de uso ficticio de 'gasto público', que fue desarrollado con fines de demostración por el equipo de BDTI para mostrar cómo se pueden aplicar las capacidades y herramientas del servicio para generar información valiosa a partir de los datos. El proyecto está disponible como código abierto en  GitLab(Abre en nueva ventana) , el repositorio de código fuente abierto y la plataforma de desarrollo de software colaborativo .

El caso de uso del 'gasto público'

El caso de uso de 'gasto público' desarrollado por el equipo BDTI consta de tres etapas típicas de un proyecto de ciencia de datos: (1) ingesta de datos; (2) visualización y análisis; y (3) toma de decisiones (Figura 2). El sujeto del caso de uso ficticio es el municipio de Dublín. El caso de uso de demostración se basa en datos abiertos siempre que sea posible, complementados con datos ficticios. Los datos de gasto público de Dublín se obtienen de  data.smartdublin.ie(Abre en nueva ventana) . Los datos de tráfico históricos se recuperan de  data.gov.ie(Abre en nueva ventana) , y el pronóstico del tiempo se recupera de  open-meteo.com(Abre en nueva ventana) . Por el contrario, los datos de gasto público utilizados en este caso de demostración como punto de referencia son ficticios y se refieren a dos ciudades de referencia ficticias, la ciudad A y la ciudad B. Las notas metodológicas de esta historia de datos brindan detalles sobre cómo acceder a la documentación completa sobre los conjuntos de datos utilizados.

En los pasos 1 y 2 de este caso de uso de demostración, las herramientas de BDTI se utilizan para ingerir y visualizar datos de gasto público. El paso 3 utiliza el aprendizaje automático para crear una solución con el objetivo de reducir el gasto en alumbrado público.  Los siguientes párrafos proporcionan más explicaciones de cada etapa.

El caso de uso de demostración del 'gasto público' y las metodologías aplicadas

Ingestión de datos

El primer paso del caso de uso de demostración es la ingestión de datos de gasto público. El desafío específico que debe abordarse se relaciona con las facturas de energía, que solo están disponibles en formato PDF en nuestro escenario. Estas facturas en PDF no legibles por máquina deben transformarse en datos que puedan procesarse fácilmente más adelante.

Para resolver este desafío, se construye una solución utilizando una herramienta disponible en el BDTI. Esta herramienta es un software de código abierto que tiene una interfaz visual intuitiva y no requiere codificación, incluidas las funciones de reconocimiento óptico de caracteres. El reconocimiento óptico de caracteres es una tecnología que interpreta documentos legibles por humanos y los transforma en datos legibles por máquinas.

La tabla de salida se puede reutilizar para seguir procesando y analizando los datos. BDTI ofrece una solución para almacenar los datos de salida en preparación para el siguiente paso en un sistema de base de datos relacional.

Visualización y análisis

Después de completar la ingestión de datos, el siguiente paso es visualizar y analizar los datos de gasto público. Para ello, utilizamos la herramienta de código abierto sobre exploración y visualización de datos disponible en la BDTI.

El resultado es un tablero que visualiza los datos reales de gasto público de Dublín, presentando la proporción de gasto para cada categoría en relación con el gasto total. Aunque esta información es interesante en sí misma, no ayuda a entender si el gasto es alto o bajo.

Para brindar más contexto a los datos de gasto del gobierno de Dublín, creamos una comparación del gasto de Dublín con dos ciudades similares, pero ficticias (ciudad de referencia A y ciudad de referencia B). Esta comparación revela que Dublín destina una parte relativamente importante de su presupuesto al alumbrado público. Este tipo de evaluación comparativa no nos dirá directamente dónde Dublin gasta demasiado o demasiado poco, pero puede darnos pistas sobre qué investigar más a fondo.

Toma de decisiones

El tercer y último paso del caso de uso tiene como objetivo construir una solución para la toma de decisiones basada en datos sobre el alumbrado público en relación con los niveles de tráfico esperados. Utilizamos tres herramientas de código abierto disponibles en BDTI para construir esta solución. Gracias a esta combinación de herramientas, podemos construir una solución que ayude a los funcionarios a lograr ahorros en el alumbrado público.

Para llegar a una solución, primero entrenamos un modelo de aprendizaje automático que predice el tráfico para la próxima semana. La herramienta utilizada para ello se puede aplicar a la ciencia de datos, el modelado estadístico y más. El modelo de aprendizaje automático que creamos utiliza datos meteorológicos y de tráfico, lo que requiere el procesamiento de grandes volúmenes de datos. El BDTI está diseñado para procesar grandes datos, por lo que lo ayudará a procesar conjuntos de datos muy grandes como estos.

Después de entrenar y ejecutar el modelo de aprendizaje automático, los datos de salida se almacenan para crear un tablero. El tablero permite a los usuarios analizar los ahorros que resultan de apagar el alumbrado público cuando menos se necesita luz. Para determinar cuándo y dónde se necesita menos iluminación, usamos los niveles de tráfico pronosticados como un indicador de la actividad en una calle. Cuanto menor sea la actividad en una calle, menor será la necesidad de iluminación.

Fuente original de la noticia(Abre en nueva ventana)

  • Inteligencia Artificial y Blockchain
  • Información y datos del sector público