"Noticia disponible únicamente con fines históricos y de hemeroteca. La información y enlaces mostrados se corresponden con los que estaban operativos a la fecha de su publicación. No se garantiza que continúen activos actualmente".
La Comisión Europea está ayudando a abordar el desafío de la reutilización de datos del sector público (RISP) a nivel europeo con un servicio llamado infraestructura de prueba de big data (BDTI) . La BDTI ofrece a las administraciones públicas un conjunto de herramientas de código abierto convencionales para el almacenamiento, procesamiento y análisis de datos, alojadas en la nube y de forma gratuita. Se ofrece a los funcionarios de todos los niveles de gobierno en Europa para que puedan ejecutar de forma autónoma proyectos piloto que demuestren el valor que los datos pueden aportar a la formulación de políticas o la administración. La sociedad civil, la academia e incluso el sector privado pueden unirse a los proyectos piloto, siempre que un organismo de la administración pública esté en el centro del caso de uso.
Esta historia de datos profundiza en el servicio BDTI y sus capacidades. Después de presentar el servicio y sus características, un caso de uso mostrará la implementación práctica y las capacidades de la plataforma. El caso de uso demuestra la aplicación de una variedad de herramientas de código abierto, reutilizando múltiples conjuntos de datos abiertos, complementados con varios conjuntos de datos ficticios. Como la plataforma se basa en herramientas de código abierto, esta historia de datos ofrece información valiosa para cualquier persona interesada en la reutilización de software y datos.
La Infraestructura de Pruebas de Big Data de la UE: qué es y cómo funciona
La Infraestructura de Pruebas de Big Data de la UE , BDTI, se creó en 2019, como parte del Programa Europa Digital , que tiene como objetivo acelerar la recuperación económica de Europa y dar forma a la transformación digital de la sociedad y la economía de Europa, aumentando la fácil disponibilidad, calidad y usabilidad de los datos públicos. información del sector en cumplimiento de los requisitos de la directiva europea de datos abiertos .
El propósito de la BDTI es fomentar la reutilización de los datos del sector público y permitir un sector público informado por los datos en los Estados miembros de la UE. Al proporcionar un entorno de prueba de análisis gratuito con herramientas de código abierto, la BDTI permite a las administraciones públicas crear prototipos de soluciones antes de implementarlas en el entorno de producción en sus propias instalaciones.
Las aplicaciones BDTI se ofrecen como un servicio en la nube, lo que permite a los usuarios experimentar con datos en un proyecto piloto. Una vez que finaliza el proyecto, los usuarios pueden llevarse el código fuente y los datos para continuar el trabajo utilizando la nube de su elección u otros recursos. La plataforma consta de herramientas de código abierto y la infraestructura de nube necesaria, que incluye máquinas virtuales, clústeres de análisis, instalaciones de almacenamiento e instalaciones de red. Para obtener más información sobre las herramientas disponibles, puede consultar la página de oferta de servicios .
Casos de uso y casos de éxito
Para demostrar cómo funciona la plataforma y cómo usarla, presenta varias historias de éxito de la vida real . La figura 1 proporciona una lista de estas historias de éxito. Por ejemplo, Eurostat y sus socios utilizaron el BDTI para experimentar con datos en el desarrollo de estadísticas oficiales. En este proyecto piloto, se utilizaron datos abiertos de anuncios de empleo en línea para proporcionar información oportuna sobre los mercados laborales europeos.
Otras historias de éxito de la vida real son la minería de textos por parte de los servicios de Salud de la ciudad de Valencia, la optimización de la contratación pública por parte de la Agencia Noruega de Digitalización , los esfuerzos de intercambio de datos por parte de la European Blood Alliance y el trabajo para facilitar la comprensión del impacto de COVID-19. sobre la ciudad de Florencia .
Además, el sitio web de BDTI proporciona múltiples casos de uso que muestran las capacidades de la plataforma, basados en datos abiertos. Por ejemplo, el caso de uso de análisis de búsqueda se basa en el conjunto de datos abiertos de CORDIS , y el caso de uso de análisis de código bajo funciona con EMHIRES (serie temporal de generación de RES de alta resolución derivada de meteorología europea para escenarios presentes y futuros) - conjunto de datos abierto sobre generación de energía solar.
En las siguientes secciones de esta historia de datos, presentamos el caso de uso ficticio de 'gasto público', que fue desarrollado con fines de demostración por el equipo de BDTI para mostrar cómo se pueden aplicar las capacidades y herramientas del servicio para generar información valiosa a partir de los datos. El proyecto está disponible como código abierto en GitLab , el repositorio de código fuente abierto y la plataforma de desarrollo de software colaborativo .
El caso de uso del 'gasto público'
El caso de uso de 'gasto público' desarrollado por el equipo BDTI consta de tres etapas típicas de un proyecto de ciencia de datos: (1) ingesta de datos; (2) visualización y análisis; y (3) toma de decisiones (Figura 2). El sujeto del caso de uso ficticio es el municipio de Dublín. El caso de uso de demostración se basa en datos abiertos siempre que sea posible, complementados con datos ficticios. Los datos de gasto público de Dublín se obtienen de data.smartdublin.ie . Los datos de tráfico históricos se recuperan de data.gov.ie , y el pronóstico del tiempo se recupera de open-meteo.com . Por el contrario, los datos de gasto público utilizados en este caso de demostración como punto de referencia son ficticios y se refieren a dos ciudades de referencia ficticias, la ciudad A y la ciudad B. Las notas metodológicas de esta historia de datos brindan detalles sobre cómo acceder a la documentación completa sobre los conjuntos de datos utilizados.
En los pasos 1 y 2 de este caso de uso de demostración, las herramientas de BDTI se utilizan para ingerir y visualizar datos de gasto público. El paso 3 utiliza el aprendizaje automático para crear una solución con el objetivo de reducir el gasto en alumbrado público. Los siguientes párrafos proporcionan más explicaciones de cada etapa.
Ingestión de datos
El primer paso del caso de uso de demostración es la ingestión de datos de gasto público. El desafío específico que debe abordarse se relaciona con las facturas de energía, que solo están disponibles en formato PDF en nuestro escenario. Estas facturas en PDF no legibles por máquina deben transformarse en datos que puedan procesarse fácilmente más adelante.
Para resolver este desafío, se construye una solución utilizando una herramienta disponible en el BDTI. Esta herramienta es un software de código abierto que tiene una interfaz visual intuitiva y no requiere codificación, incluidas las funciones de reconocimiento óptico de caracteres. El reconocimiento óptico de caracteres es una tecnología que interpreta documentos legibles por humanos y los transforma en datos legibles por máquinas.
La tabla de salida se puede reutilizar para seguir procesando y analizando los datos. BDTI ofrece una solución para almacenar los datos de salida en preparación para el siguiente paso en un sistema de base de datos relacional.
Visualización y análisis
Después de completar la ingestión de datos, el siguiente paso es visualizar y analizar los datos de gasto público. Para ello, utilizamos la herramienta de código abierto sobre exploración y visualización de datos disponible en la BDTI.
El resultado es un tablero que visualiza los datos reales de gasto público de Dublín, presentando la proporción de gasto para cada categoría en relación con el gasto total. Aunque esta información es interesante en sí misma, no ayuda a entender si el gasto es alto o bajo.
Para brindar más contexto a los datos de gasto del gobierno de Dublín, creamos una comparación del gasto de Dublín con dos ciudades similares, pero ficticias (ciudad de referencia A y ciudad de referencia B). Esta comparación revela que Dublín destina una parte relativamente importante de su presupuesto al alumbrado público. Este tipo de evaluación comparativa no nos dirá directamente dónde Dublin gasta demasiado o demasiado poco, pero puede darnos pistas sobre qué investigar más a fondo.
Toma de decisiones
El tercer y último paso del caso de uso tiene como objetivo construir una solución para la toma de decisiones basada en datos sobre el alumbrado público en relación con los niveles de tráfico esperados. Utilizamos tres herramientas de código abierto disponibles en BDTI para construir esta solución. Gracias a esta combinación de herramientas, podemos construir una solución que ayude a los funcionarios a lograr ahorros en el alumbrado público.
Para llegar a una solución, primero entrenamos un modelo de aprendizaje automático que predice el tráfico para la próxima semana. La herramienta utilizada para ello se puede aplicar a la ciencia de datos, el modelado estadístico y más. El modelo de aprendizaje automático que creamos utiliza datos meteorológicos y de tráfico, lo que requiere el procesamiento de grandes volúmenes de datos. El BDTI está diseñado para procesar grandes datos, por lo que lo ayudará a procesar conjuntos de datos muy grandes como estos.
Después de entrenar y ejecutar el modelo de aprendizaje automático, los datos de salida se almacenan para crear un tablero. El tablero permite a los usuarios analizar los ahorros que resultan de apagar el alumbrado público cuando menos se necesita luz. Para determinar cuándo y dónde se necesita menos iluminación, usamos los niveles de tráfico pronosticados como un indicador de la actividad en una calle. Cuanto menor sea la actividad en una calle, menor será la necesidad de iluminación.
Fuente original de la noticia
-
Inteligencia Artificial y Blockchain
-
Información y datos del sector público