Esta ferramenta ferramenta , aloxada na nube e de uso gratuíto, creouse en 2019 para acelerar a transformación dixital e social. Con esta formulación e seguindo tamén a Directiva Europea de Datos Abertos, a Comisión Europea chegou á conclusión de que, para lograr un impulso dixital e económico, debía aproveitarse o poder dos datos das administracións públicas; é dicir, aumentar a súa dispoñibilidade, calidade e usabilidade. É así como nace BDTI, co propósito de fomentar a reutilización desta información proporcionando unha contorna de proba de análise gratuíta que permite ás administracións públicas crear prototipos de solucións na nube antes de implementalas na contorna de produción das súas propias instalacións.
Que ferramentas ofrece BDTI?
Big Data Test Infrastructure ofrece ás administracións públicas europeas un conxunto de ferramentas estándar de código aberto para o almacenamento, procesamento e análise dos seus datos. A plataforma consta de máquinas virtuais, clústeres de análises e instalacións de almacenamento e de rede. As ferramentas que ofrece son:
- Bases de datos: para almacenar datos e realizar consultas sobre os datos almacenados. O BDTI inclúe actualmente unha base de datos relacional ( PostgreSQL ), unha base de datos orientada a documentos ( MongoDB ) e unha base de datos gráfica ( Virtuoso ).
- Lago de datos: para almacenar grandes cantidades de datos estruturados e sen estruturar ( MinIO) . Os datos en bruto non estruturados pódense procesar con configuracións despregadas doutros bloques de construción (compoñentes BDTI) e almacenarse nun formato máis estruturado dentro da solución de lago de datos.
- Contornas de desenvolvemento: proporcionan as capacidades informáticas e as ferramentas necesarias para realizar actividades estándar de análises de datos sobre datos que proveñen de fontes externas, como lagos de datos e bases de datos.
- JupyterLab , unha contorna de desenvolvemento interactivo e en liña para crear cadernos Jupyter, código e datos.
- Rstudio , unha contorna de desenvolvemento integrado para R, unha linguaxe de programación para computación estatística e gráficos.
- KNIME , unha plataforma de análise, informes e integración de datos de código aberto que conta con compoñentes para a aprendizaxe automática e a minaría de datos, que se pode utilizar para todo o ciclo de vida da ciencia de datos.
- H2Ou.ai , unha plataforma de aprendizaxe automática (machine learning ou ML) e intelixencia artificial (IA) de código aberto deseñada para simplificar e acelerar a creación, o funcionamento e a innovación con ML e IA en calquera contorna.
- Procesamento avanzado: tamén se poden crear clústeres e ferramentas para procesar grandes volumes de datos e realizar operacións de procura en tempo real ( Apache Spark , Elasticsearch e Kibana
- Visualización: BDTI tamén ofrece aplicacións para visualizar datos como Apache Superset , capaz de manexar datos a escala de petabytes ou Metabase .
- Orquestración: para a automatización dos procesos baseados en datos durante todo o seu ciclo de vida, desde a preparación de datos ata a toma de decisións baseadas neles e a realización de accións baseadas nesas decisións, ofrécese:
- Apache Airflow , unha plataforma de xestión de fluxos de traballo de código aberto que permite programar e executar facilmente canalizacións de datos complexas.
A través destas ferramentas que se atopan en contorna nube, os traballadores públicos de países dos países da UE poden crear os seus propios proxectos piloto para demostrar o valor que os datos poden achegar á innovación. Unha vez finalizado o proxecto, os usuarios teñen a posibilidade descargar o código fonte e os datos para continuar o traballo por si mesmos, utilizando contornas da súa elección. Ademais, a sociedade civil, a academia e o sector privado poden participar nestes proxectos piloto, a condición de que haxa unha entidade pública involucrada no caso de uso.
Casos de éxito
Estes recursos posibilitaron a creación de proxectos diversos en diferentes países da UE. Na web de BDTI, recóllense algúns exemplos de casos de uso. Por exemplo, Eurostat levou a cabo un proxecto piloto no que se utilizaron datos abertos de anuncios de emprego en internet para mapear a situación dos mercados laborais europeos . Outros casos de éxito foi a optimización da contratación pública por parte da Axencia Norueguesa de Dixitalización , os esforzos de intercambio de datos por parte da European Blood Alliance e o traballo para facilitar a comprensión do impacto de Covid-19. sobre a cidade de Florencia .
En España, BDTI fixo posible un proxecto de minaría de datos en a Conselleria de Sanitat da Comunidade Valenciana. Grazas a BDTI puidéronse extraer coñecementos da enorme cantidade de artigos clínicos científicos; unha tarefa que apoiou a clínicos e xestores nas súas prácticas clínicas e no seu traballo diario.