accesskey_mod_content

Big Data Test Infrastructure: Un entorn gratuït perquè les AA.PP experimentin amb les seves dades obertes

  • Escoltar
  • Imprimir PDF
  • Compartir

27 març 2024

La Infraestructura de Proves per a l'Anàlisi de Dades (BDTI, per les seves sigles en anglès, Big Data Test Infrastructure) és una eina finançada per el Programa Digital Europeu, que permet a les administracions públiques realitzar anàlisis amb dades obertes i eines de codi obert amb la finalitat d'impulsar la innovació.

Aquesta eina(Obre en nova finestra) , allotjada en el núvol i d'ús gratuït, es va crear en 2019 per accelerar la transformació digital i social. Amb aquest plantejament i seguint també la  Directiva Europea de Dades Obertes,(Obre en nova finestra)  la Comissió Europea va arribar a la conclusió que, per aconseguir un impuls digital i econòmic, havia d'aprofitar-se el poder de les dades de les administracions públiques; és a dir, augmentar la seva disponibilitat, qualitat i usabilitat. És així com neix BDTI, amb el propòsit de fomentar la reutilització d'aquesta informació proporcionant un entorn de prova d'anàlisi gratuïta que permet a les administracions públiques crear prototips de solucions en el núvol abans d'implementar-les a l'entorn de producció de les seves pròpies instal·lacions.

Quines eines ofereix BDTI?

Big Data Test Infrastructure ofereix a les administracions públiques europees un conjunt de  eines estàndard de codi obert  per a el emmagatzematge, processament i anàlisi de les seves dades. La plataforma consta de màquines virtuals, clústers d'anàlisis i instal·lacions d'emmagatzematge i de xarxa. Les eines que ofereix són:

  1. Bases de dades: per emmagatzemar dades i realitzar consultes sobre les dades emmagatzemades. El BDTI inclou actualment una base de dades relacional ( PostgreSQL ), una base de dades orientada a documents ( MongoDB ) i una base de dades gràfica ( Virtuós ).
  2. Llac de dades: per emmagatzemar grans quantitats de dades estructurades i sense estructurar ( MinIO) . Les dades en brut no estructurats es poden processar amb configuracions desplegades d'altres blocs de construcció (components BDTI) i emmagatzemar-se en un format més estructurat dins de la solució de llac de dades.
  3. Entorns de desenvolupament: proporcionen les capacitats informàtiques i les eines necessàries per realitzar activitats estàndard d'anàlisis de dades sobre dades que provenen de fonts externes, com a llacs de dades i bases de dades.
    • JupyterLab , un entorn de desenvolupament interactiu i online per crear quaderns Jupyter, codi i dades.
    • Rstudio , un entorn de desenvolupament integrat per a R, un llenguatge de programació per a computació estadística i gràfics.
    • KNIME , una plataforma d'anàlisi, informes i integració de dades de codi obert que compta amb components per a l'aprenentatge automàtic i la mineria de dades, que es pot utilitzar per a tot el cicle de vida de la ciència de dades.
    • H2o.ai , una plataforma d'aprenentatge automàtic (machine learning o ML) i intel·ligència artificial (IA) de codi obert dissenyada per simplificar i accelerar la creació, el funcionament i la innovació amb ML i IA en qualsevol entorn.
  4. Processament avançat: també es poden crear clústers i eines per processar grans volums de dades i realitzar operacions de cerca en temps real ( Apatxe SparkElasticsearch  i  Kibana
  5. Visualització: BDTI també ofereix aplicacions per visualitzar dades com a  Apatxe Superset , capaç de manejar dades a escala de petabytes o  Metabase .
  6. Orquestració: per a l'automatització dels processos basats en dades durant tot el seu cicle de vida, des de la preparació de dades fins a la presa de decisions basades en ells i la realització d'accions basades en aquestes decisions, s'ofereix:
    • Apatxe Airflow , una plataforma de gestió de fluxos de treball de codi obert que permet programar i executar fàcilment canalitzacions de dades complexes.

A través d'aquestes eines que es troben en entorn núvol, els treballadors públics de països dels països de la UE poden crear els seus propis projectes pilot per demostrar el valor que les dades poden aportar a la innovació. Una vegada finalitzat el projecte, els usuaris tenen la possibilitat descarregar el codi font i les dades per continuar el treball per si mateixos, utilitzant entorns de la seva elecció. A més, la societat civil, l'acadèmia i el sector privat poden participar en aquests projectes pilot, sempre que hi hagi una entitat pública involucrada en el cas d'ús.

Casos d'èxit

Aquests recursos han possibilitat la creació de projectes diversos en diferents països de la UE. A la web de BDTI, es recullen alguns  exemples de casos d'ús.  Per exemple, Eurostat va dur a terme un projecte pilot en el qual es van utilitzar dades obertes d'anuncis d'ocupació en internet per mapear la  situació dels mercats laborals europeus . Altres casos d'èxit va ser la  optimització de la contractació pública per part de l'Agència Noruega de Digitalització , els esforços d'intercanvi de dades per part de l'European Blood Alliance i el treball per facilitar la  comprensió de l'impacte de Covid-19. sobre la ciutat de Florència  .

A Espanya, BDTI va fer possible un projecte de mineria de dades en la Conselleria de Sanitat de la Comunitat Valenciana. Gràcies a BDTI es van poder extreure coneixements de l'enorme quantitat d'articles clínics científics; una tasca que va recolzar a clínics i gestors en les seves pràctiques clíniques i en el seu treball diari.

Font original de la notícia(Obre en nova finestra)

  • Informació i dades del sector públic