Per complir amb la Directiva (UE) 2019/1024 i el seu posterior reglamento d'execució , els estats membres de la Unió Europea estan treballant en la posada a la disposició de les anomenades dades d'alt valor (high-value dataset o HVD, en anglès). L'objectiu és que ciutadans i empreses puguin accedir a aquestes dades sota uns requisits tècnics que afavoreixin la seva reutilització i el seu impacte positiu en la societat, l'economia i el medi ambient.
L'obertura d'aquests conjunts de dades suposa un gran repte per a les administracions públiques de tots els països de la Unió Europea. Encara que molts d'aquestes dades ja estan a la disposició dels usuaris, els països han d'identificar-los per poder informar sobre ells i resoldre la alta heterogeneïtat en els formats, estructures i semàntiques. En concret, a partir de febrer de 2025, els Estats membres hauran d'informar a la Comissió cada dos anys sobre els conjunts de dades d'alt valor disponibles, incloent els enllaços a les condicions de les llicències i les API.
Per ajudar en aquesta tasca, el Portal Europeu de Dades ha publicat l'informe “ Report on Data Homogenisation for High-value Datasets” on proposa un enfocament metodològic per facilitar la identificació i homogeneïtzació dels HVD. Entre altres qüestions, l'informe ofereix exemples d'estàndards que ajuden a aconseguir una major interoperabilitat no solament entre dades, sinó també entre les aplicacions que els utilitzen.
Un mètode per a la identificació i homogeneïtzació
L'informe descriu una aproximació metodològica basada en tres passos:
-
La identificació dels HVD als portals de dades ja existents. Encara que existeixen algunes pautes per a la publicació de HVD, com aquestes per aplicar DCAT-AP , la forma de nomenar als conjunts de dades ja publicades no és uniforme, la qual cosa fa difícil trobar-los. L'informe proposa un protocol que consisteix a definir paraules clau, partint dels conjunts de dades i els seus atributs associats, continguts en l'annex I del Reglament d'Execució. Es tracta d'utilitzar aquestes paraules clau per cercar als diferents portals de dades ja existents. L'informe explica com s'ha verificat el protocol d'identificació amb conjunts de dades de les categories de registres empresarials, dades estadístiques i dades sobre xarxes de transport, incloent taules amb les paraules clau utilitzades.
-
Localització o desenvolupament de models de dades, ontologies, vocabularis controlats i/o API comuns. En aquesta secció, l'informe descriu alguns recursos d'utilitat, els quals es resumeixen en la següent taula:
Recurs |
Descripció |
Categoria de dades en les quals més poden ajudar, segons l'informe |
Característiques que ha de tenir la informació espacial i les seves metadades. |
|
|
Especificacions de dades de la Directiva Inspiri (data specifications) |
Models, esquemes i regles de codificació per a diferents àrees temàtiques de dades espacials.
|
|
Serveis de xarxa d'Inspiri (network services) |
Conjunt d'interfícies comunes per a serveis web que permeten el descobriment, visualització, descàrrega i transformació de dades espacials. |
|
Directrius tècniques per a les metadades d'Inspiri (Inspiri technical guidelines for metadata) |
Directrius tècniques per a metadades, amb els elements mínims a incloure definits en el Reglament 1205/2008 de la Comissió. |
|
Extensió del perfil d'aplicació DCAT per descriure conjunts de dades geoespacials. |
|
|
Core Location Vocabulary |
Model de dades simplificat que inclou les característiques fonamentals d'una ubicació, representada com una adreça o nom geogràfic, o a través de geometria. |
|
Vocabulari controlat especialitzat en informació mediambiental. Disposa d'una secció de conceptes lligats amb les categories de dades espacials incloses en Inspiri. |
|
|
Recomanació del W3C per descriure els sensors i les seves observacions. |
|
|
Conjunt d'ontologies que defineixen classes bàsiques, propietats i restriccions utilitzades per modelar magnituds físiques, unitats de mesura i les seves dimensions en diversos sistemes de mesurament. |
|
|
Classificacions estadístiques mantingudes per Eurostat, disponibles com Linked Open Data en XKOS, l'extensió de SKOS per modelar classificacions estadístiques. Es presenten per família de classificació, categoritzades per àmbit estadístic i subdominis (per exemple, NEIX per a l'activitat econòmica, la qual descriurem més endavant). |
|
|
Conjuntos predefinidos y organizados de elementos que presentan conceptos estadísticos mediante códigos únicos |
|
|
Iniciativa mundial per normalitzar i harmonitzar l'intercanvi de dades i metadades estadístiques. Ofereix normes tècniques (el model d'informació SDMX), directrius, una arquitectura informàtica, eines i una sèrie de tutorials per ajudar als usuaris. |
|
|
Ontologia per descriure dades multidimensionales, com les estadístiques, que es basa en el nucli del model d'informació SDMX 2.0. |
|
|
Esmentat pel propi reglament, consisteix en un model de dades simplificat que captura les característiques fonamentals d'una entitat jurídica, com el seu nom legal, activitat o adreça. |
|
|
Codis per a la classificació d'activitats econòmiques en la Unió Europea. La seva revisió NEIX 2 va ser publicada per la Comissió Europea a l'octubre de 2022 |
|
|
Ontologia del W3C per recolzar la publicació de dades enllaçades relatives a informació organitzativa, és a dir, proporciona una sèrie de formes de representar la relació entre les persones i les organitzacions, juntament amb l'estructura d'informació interna d'una organització. |
|
|
Base de dades centralitzada amb informació sobre les persones jurídiques que participen als mercats financers mundials. Assigna a cada entitat un codi únic d'Identificador de Persones Jurídiques (Legal Entity Identifier o LEI) reconegut a escala mundial. |
|
|
Taxonomia NST |
Sistema de classificació per a les mercaderies transportades a través de carretera, ferrocarril, vies navegables interiors i mar. Té en compte l'activitat econòmica associada a l'origen de les mercaderies. |
|
Taula d'autoritats de "Transport service" |
Llista de codis dels diferents tipus de serveis de transport facilitada per la secció de Vocabularis de la UE . |
|
L'informe també esmenta alguns models a utilitzar en l'àmbit de ciutats intel·ligents, com Smart Data Models i l'espanyola Ciutats Obertes .
-
L'aplicació d'aquests models. L'últim pas és l'harmonització real de les dades. Una vegada seleccionats els models a utilitzar, és el moment d'aplicar-los. En aquesta fase es realitzaran els processos de conversió necessaris per proporcionar les dades en els formats adequats i amb metadades de qualitat unificats. La forma d'aplicar aquestes transformacions variarà en funció del resultat final previst. Per exemple, pot consistir a transformar dades tabulars (valors separats per comes o CSV, Excel, bases de dades relacionals, etc.) en altres fonts de dades també tabulars però que segueixin l'estructura proporcionada en els models de dades comunes. També es pot anar més enllà i transformar-los en representacions basades en arbres (com JSON) o en RDF d'acord amb les ontologies i vocabularis controlats que se seleccionin.
Conclusions de l'informe
L'informe finalitza amb una sèrie de conclusions i recomanacions. Encara existeixen reptes entorn de/entorn de la identificació dels HVD i l'aplicació del Reglament d'execució en tots els països europeus, sobretot a l'hora de conscienciar i difondre sobre la seva importància. En les categories de HVD en les quals existeixen grans iniciatives d'harmonització de dades, com Inspiri sobre dades geoespacials o Eurostat sobre HVD estadístics, podem trobar una major quantitat de dades disponibles de manera interoperable i harmonitzada. Per contra, en les categories en les quals no existeix una iniciativa adoptada de forma majoritària, com les empreses i la propietat de les empreses, encara queda camí per recórrer per aplicar el reglament.
Les recomanacions que planteja l'informe del Portal Europeu de Dades ajuden a configurar un full de ruta per publicar els conjunts de dades d'alt valor en cadascuna de les categories definides per la Comissió Europea. Un repte que les administracions hauran d'abordar durant 2024 i que facilitarà la reutilització de la informació pública.