accesskey_mod_content

Big Data Test Infrastructure: Unha contorna gratuíta para que as AA.PP experimenten cos seus datos abertos

  • Escoitar
  • Imprimir PDF
  • Compartir

27 marzo 2024

A Infraestrutura de Probas para a Análise de Datos (BDTI, polas súas siglas en inglés, Big Data Test Infrastructure) é unha ferramenta financiada por o Programa Dixital Europeo, que permite ás administracións públicas realizar análises con datos abertos e ferramentas de código aberto co fin de impulsar a innovación.

Esta ferramenta ferramenta(Abre en nova xanela) , aloxada na nube e de uso gratuíto, creouse en 2019 para acelerar a transformación dixital e social. Con esta formulación e seguindo tamén a  Directiva Europea de Datos Abertos,(Abre en nova xanela)  a Comisión Europea chegou á conclusión de que, para lograr un impulso dixital e económico, debía aproveitarse o poder dos datos das administracións públicas; é dicir, aumentar a súa dispoñibilidade, calidade e usabilidade. É así como nace BDTI, co propósito de fomentar a reutilización desta información proporcionando unha contorna de proba de análise gratuíta que permite ás administracións públicas crear prototipos de solucións na nube antes de implementalas na contorna de produción das súas propias instalacións.

Que ferramentas ofrece BDTI?

Big Data Test Infrastructure ofrece ás administracións públicas europeas un conxunto de  ferramentas estándar de código aberto  para o almacenamento, procesamento e análise dos seus datos. A plataforma consta de máquinas virtuais, clústeres de análises e instalacións de almacenamento e de rede. As ferramentas que ofrece son:

  1. Bases de datos: para almacenar datos e realizar consultas sobre os datos almacenados. O BDTI inclúe actualmente unha base de datos relacional ( PostgreSQL ), unha base de datos orientada a documentos ( MongoDB ) e unha base de datos gráfica ( Virtuoso ).
  2. Lago de datos: para almacenar grandes cantidades de datos estruturados e sen estruturar ( MinIO) . Los datos en bruto no estructurados se pueden procesar con configuraciones desplegadas de otros bloques de construcción (componentes BDTI) y almacenarse en un formato más estructurado dentro de la solución de lago de datos.
  3. Entornos de desarrollo: proporcionan las capacidades informáticas y las herramientas necesarias para realizar actividades estándar de análisis de datos sobre datos que provienen de fuentes externas, como lagos de datos y bases de datos.
    • JupyterLab , unha contorna de desenvolvemento interactivo e en liña para crear cadernos Jupyter, código e datos.
    • Rstudio , unha contorna de desenvolvemento integrado para R, unha linguaxe de programación para computación estatística e gráficos.
    • KNIME , una plataforma de análisis, informes e integración de datos de código abierto que cuenta con componentes para el aprendizaje automático y la minería de datos, que se puede utilizar para todo el ciclo de vida de la ciencia de datos.
    • H2Ou.ai , unha plataforma de aprendizaxe automática (machine learning ou ML) e intelixencia artificial (IA) de código aberto deseñada para simplificar e acelerar a creación, o funcionamento e a innovación con ML e IA en calquera contorna.
  4. Procesamento avanzado: tamén se poden crear clústeres e ferramentas para procesar grandes volumes de datos e realizar operacións de procura en tempo real ( Apache SparkElasticsearch  e  Kibana
  5. Visualización: BDTI tamén ofrece aplicacións para visualizar datos como  Apache Superset , capaz de manexar datos a escala de petabytes ou  Metabase .
  6. Orquestación: para la automatización de los procesos basados en datos durante todo su ciclo de vida, desde la preparación de datos hasta la toma de decisiones basadas en ellos y la realización de acciones basadas en esas decisiones, se ofrece:
    • Apache Airflow , unha plataforma de xestión de fluxos de traballo de código aberto que permite programar e executar facilmente canalizacións de datos complexas.

A través de estas herramientas que se encuentran en entorno nube, los trabajadores públicos de países de los países de la UE pueden crear sus propios proyectos piloto para demostrar el valor que los datos pueden aportar a la innovación. Una vez finalizado el proyecto, los usuarios tienen la posibilidad descargar el código fuente y los datos para continuar el trabajo por sí mismos, utilizando entornos de su elección. Además, la sociedad civil, la academia y el sector privado pueden participar en estos proyectos piloto, siempre y cuando haya una entidad pública involucrada en el caso de uso.

Casos de éxito

Estes recursos posibilitaron a creación de proxectos diversos en diferentes países da UE. Na web de BDTI, recóllense algúns  exemplos de casos de uso.  Por exemplo, Eurostat levou a cabo un proxecto piloto no que se utilizaron datos abertos de anuncios de emprego en internet para mapear a  situación dos mercados laborais europeos . Outros casos de éxito foi a  optimización da contratación pública por parte da Axencia Norueguesa de Dixitalización , os esforzos de intercambio de datos por parte da European Blood Alliance e o traballo para facilitar a  comprensión do impacto de Covid-19. sobre a cidade de Florencia  .

En España, BDTI fixo posible un proxecto de minaría de datos en a Conselleria de Sanitat da Comunidade Valenciana. Grazas a BDTI puidéronse extraer coñecementos da enorme cantidade de artigos clínicos científicos; unha tarefa que apoiou a clínicos e xestores nas súas prácticas clínicas e no seu traballo diario.

Fonte orixinal da noticia(Abre en nova xanela)

  • Información e datos do sector público