accesskey_mod_content

Big Data Test Infrastructure: Unha contorna gratuíta para que as AA.PP experimenten cos seus datos abertos

  • Escoitar
  • Imprimir PDF
  • Compartir

27 marzo 2024

A Infraestrutura de Probas para a Análise de Datos (BDTI, polas súas siglas en inglés, Big Data Test Infrastructure) é unha ferramenta financiada por o Programa Dixital Europeo, que permite ás administracións públicas realizar análises con datos abertos e ferramentas de código aberto co fin de impulsar a innovación.

Esta ferramenta ferramenta(Abre en nova xanela) , aloxada na nube e de uso gratuíto, creouse en 2019 para acelerar a transformación dixital e social. Con esta formulación e seguindo tamén a  Directiva Europea de Datos Abertos,(Abre en nova xanela)  a Comisión Europea chegou á conclusión de que, para lograr un impulso dixital e económico, debía aproveitarse o poder dos datos das administracións públicas; é dicir, aumentar a súa dispoñibilidade, calidade e usabilidade. É así como nace BDTI, co propósito de fomentar a reutilización desta información proporcionando unha contorna de proba de análise gratuíta que permite ás administracións públicas crear prototipos de solucións na nube antes de implementalas na contorna de produción das súas propias instalacións.

Que ferramentas ofrece BDTI?

Big Data Test Infrastructure ofrece ás administracións públicas europeas un conxunto de  ferramentas estándar de código aberto  para o almacenamento, procesamento e análise dos seus datos. A plataforma consta de máquinas virtuais, clústeres de análises e instalacións de almacenamento e de rede. As ferramentas que ofrece son:

  1. Bases de datos: para almacenar datos e realizar consultas sobre os datos almacenados. O BDTI inclúe actualmente unha base de datos relacional ( PostgreSQL ), unha base de datos orientada a documentos ( MongoDB ) e unha base de datos gráfica ( Virtuoso ).
  2. Lago de datos: para almacenar grandes cantidades de datos estruturados e sen estruturar ( MinIO) . Os datos en bruto non estruturados pódense procesar con configuracións despregadas doutros bloques de construción (compoñentes BDTI) e almacenarse nun formato máis estruturado dentro da solución de lago de datos.
  3. Contornas de desenvolvemento: proporcionan as capacidades informáticas e as ferramentas necesarias para realizar actividades estándar de análises de datos sobre datos que proveñen de fontes externas, como lagos de datos e bases de datos.
    • JupyterLab , unha contorna de desenvolvemento interactivo e en liña para crear cadernos Jupyter, código e datos.
    • Rstudio , unha contorna de desenvolvemento integrado para R, unha linguaxe de programación para computación estatística e gráficos.
    • KNIME , unha plataforma de análise, informes e integración de datos de código aberto que conta con compoñentes para a aprendizaxe automática e a minaría de datos, que se pode utilizar para todo o ciclo de vida da ciencia de datos.
    • H2Ou.ai , unha plataforma de aprendizaxe automática (machine learning ou ML) e intelixencia artificial (IA) de código aberto deseñada para simplificar e acelerar a creación, o funcionamento e a innovación con ML e IA en calquera contorna.
  4. Procesamento avanzado: tamén se poden crear clústeres e ferramentas para procesar grandes volumes de datos e realizar operacións de procura en tempo real ( Apache SparkElasticsearch  e  Kibana
  5. Visualización: BDTI tamén ofrece aplicacións para visualizar datos como  Apache Superset , capaz de manexar datos a escala de petabytes ou  Metabase .
  6. Orquestración: para a automatización dos procesos baseados en datos durante todo o seu ciclo de vida, desde a preparación de datos ata a toma de decisións baseadas neles e a realización de accións baseadas nesas decisións, ofrécese:
    • Apache Airflow , unha plataforma de xestión de fluxos de traballo de código aberto que permite programar e executar facilmente canalizacións de datos complexas.

A través destas ferramentas que se atopan en contorna nube, os traballadores públicos de países dos países da UE poden crear os seus propios proxectos piloto para demostrar o valor que os datos poden achegar á innovación. Unha vez finalizado o proxecto, os usuarios teñen a posibilidade descargar o código fonte e os datos para continuar o traballo por si mesmos, utilizando contornas da súa elección. Ademais, a sociedade civil, a academia e o sector privado poden participar nestes proxectos piloto, a condición de que haxa unha entidade pública involucrada no caso de uso.

Casos de éxito

Estes recursos posibilitaron a creación de proxectos diversos en diferentes países da UE. Na web de BDTI, recóllense algúns  exemplos de casos de uso.  Por exemplo, Eurostat levou a cabo un proxecto piloto no que se utilizaron datos abertos de anuncios de emprego en internet para mapear a  situación dos mercados laborais europeos . Outros casos de éxito foi a  optimización da contratación pública por parte da Axencia Norueguesa de Dixitalización , os esforzos de intercambio de datos por parte da European Blood Alliance e o traballo para facilitar a  comprensión do impacto de Covid-19. sobre a cidade de Florencia  .

En España, BDTI fixo posible un proxecto de minaría de datos en a Conselleria de Sanitat da Comunidade Valenciana. Grazas a BDTI puidéronse extraer coñecementos da enorme cantidade de artigos clínicos científicos; unha tarefa que apoiou a clínicos e xestores nas súas prácticas clínicas e no seu traballo diario.

Fonte orixinal da noticia(Abre en nova xanela)

  • Información e datos do sector público