Esta ferramenta , allotjada en el núvol i d'ús gratuït, es va crear en 2019 per a accelerar la transformació digital i social. Amb este plantejament i seguint també la Directiva Europea de Dades Obertes, la Comissió Europea va arribar a la conclusió que, per a aconseguir un impuls digital i econòmic, havia d'aprofitar-se el poder de les dades de les administracions públiques; és a dir, augmentar la seua disponibilitat, qualitat i usabilitat. És així com naix BDTI, amb el propòsit de fomentar la reutilització d'esta informació proporcionant un entorn de prova d'anàlisi gratuïta que permet a les administracions públiques crear prototips de solucions en el núvol abans d'implementar-les a l'entorn de producció de les seues pròpies instal·lacions.
Quines ferramentes oferix BDTI?
Big Data Test Infrastructure oferix a les administracions públiques europees un conjunt de ferramentes estàndard de codi obert per a el emmagatzematge, processament i anàlisi de les seues dades. La plataforma consta de màquines virtuals, clústers d'anàlisis i instal·lacions d'emmagatzematge i de xarxa. Les ferramentes que oferix són:
- Bases de dades: per a emmagatzemar dades i realitzar consultes sobre les dades emmagatzemades. El BDTI inclou actualment una base de dades relacional ( PostgreSQL ), una base de dades orientada a documents ( MongoDB ) i una base de dades gràfica ( Virtuós ).
- Llac de dades: per a emmagatzemar grans quantitats de dades estructurades i sense estructurar ( MinIO) . Les dades en brut no estructurats es poden processar amb configuracions desplegades d'altres blocs de construcció (components BDTI) i emmagatzemar-se en un format més estructurat dins de la solució de llac de dades.
- Entorns de desenvolupament: proporcionen les capacitats informàtiques i les ferramentes necessàries per a realitzar activitats estàndard d'anàlisis de dades sobre dades que provenen de fonts externes, com a llacs de dades i bases de dades.
- JupyterLab , un entorn de desenvolupament interactiu i online per a crear quaderns Jupyter, codi i dades.
- Rstudio , un entorn de desenvolupament integrat per a R, un llenguatge de programació per a computació estadística i gràfics.
- KNIME , una plataforma d'anàlisi, informes i integració de dades de codi obert que compta amb components per a l'aprenentatge automàtic i la mineria de dades, que es pot utilitzar per a tot el cicle de vida de la ciència de dades.
- H2o.ai , una plataforma d'aprenentatge automàtic (machine learning o ML) i intel·ligència artificial (IA) de codi obert dissenyada per a simplificar i accelerar la creació, el funcionament i la innovació amb ML i IA en qualsevol entorn.
- Processament avançat: també es poden crear clústers i ferramentes per a processar grans volums de dades i realitzar operacions de cerca en temps real ( Apache Spark , Elasticsearch i Kibana
- Visualització: BDTI també oferix aplicacions per a visualitzar dades com a Apache Superset , capaç de manejar dades a escala de petabytes o Metabase .
- Orquestració: per a l'automatització dels processos basats en dades durant tot el seu cicle de vida, des de la preparació de dades fins a la presa de decisions basades en ells i la realització d'accions basades en eixes decisions, s'oferix:
- Apache Airflow , una plataforma de gestió de fluxos de treball de codi obert que permet programar i executar fàcilment canalitzacions de dades complexes.
A través d'estes ferramentes que es troben en entorn núvol, els treballadors públics de països dels països de la UE poden crear els seus propis projectes pilot per a demostrar el valor que les dades poden aportar a la innovació. Una vegada finalitzat el projecte, els usuaris tenen la possibilitat descarregar el codi font i les dades per a continuar el treball per si mateixos, utilitzant entorns de la seua elecció. A més, la societat civil, l'acadèmia i el sector privat poden participar en estos projectes pilot, sempre que hi haja una entitat pública involucrada en el cas d'ús.
Casos d'èxit
Estos recursos han possibilitat la creació de projectes diversos en diferents països de la UE. En la web de BDTI, s'arrepleguen alguns exemples de casos d'ús. Per exemple, Eurostat va dur a terme un projecte pilot en el qual es van utilitzar dades obertes d'anuncis d'ocupació en internet per a mapear la situació dels mercats laborals europeus . Altres casos d'èxit va ser la optimització de la contractació pública per part de l'Agència Noruega de Digitalització , els esforços d'intercanvi de dades per part de l'European Blood Alliance i el treball per a facilitar la comprensió de l'impacte de Covid-19. sobre la ciutat de Florència .
A Espanya, BDTI va fer possible un projecte de mineria de dades en la Conselleria de Sanitat de la Comunitat Valenciana. Gràcies a BDTI es van poder extraure coneixements de l'enorme quantitat d'articles clínics científics; una tasca que va recolzar a clínics i gestors en les seues pràctiques clíniques i en el seu treball diari.