Per a complir amb la Directiva (UE) 2019/1024 i el seu posterior reglamente d'execució , els estats membres de la Unió Europea estan treballant en la posada a la disposició de les anomenades dades d'alt valor (high-value dataset o HVD, en anglés). L'objectiu és que ciutadans i empreses puguen accedir a aquestes dades baix uns requisits tècnics que afavorisquen la seua reutilització i el seu impacte positiu en la societat, l'economia i el medi ambient.
L'obertura d'estos conjunts de dades suposa un gran repte per a les administracions públiques de tots els països de la Unió Europea. Encara que molts d'estes dades ja estan a la disposició dels usuaris, els països han d'identificar-los per a poder informar sobre ells i resoldre la alta heterogeneïtat en els formats, estructures i semàntiques. En concret, a partir de febrer de 2025, els Estats membres hauran d'informar a la Comissió cada dos anys sobre els conjunts de dades d'alt valor disponibles, incloent els enllaços a les condicions de les llicències i les API.
Per a ajudar en esta tasca, el Portal Europeu de Dades ha publicat l'informe “ Report on Data Homogenisation for High-value Datasets” on proposa un enfocament metodològic per a facilitar la identificació i homogeneïtzació dels HVD. Entre altres qüestions, l'informe oferix exemples d'estàndards que ajuden a aconseguir una major interoperabilitat no solament entre dades, sinó també entre les aplicacions que els utilitzen.
Un mètode per a la identificació i homogeneïtzació
L'informe descriu una aproximació metodològica basada en tres passos:
-
La identificació dels HVD en els portals de dades ja existents. Encara que existixen algunes pautes per a la publicació de HVD, com estes per a aplicar DCAT-AP , la forma de nomenar als conjunts de dades ja publicades no és uniforme, la qual cosa fa difícil trobar-los. L'informe proposa un protocol que consistix a definir paraules clau, partint dels conjunts de dades i els seus atributs associats, continguts en l'annex I del Reglament d'Execució. Es tracta d'utilitzar aquestes paraules clau per a buscar en els diferents portals de dades ja existents. L'informe explica com s'ha verificat el protocol d'identificació amb conjunts de dades de les categories de registres empresarials, dades estadístiques i dades sobre xarxes de transport, incloent taules amb les paraules clau utilitzades.
-
Localització o desenvolupament de models de dades, ontologies, vocabularis controlats i/o API comuns. En esta secció, l'informe descriu alguns recursos d'utilitat, els quals es resumixen en la següent taula:
Recurs |
Descripció |
Categoria de dades en les quals més poden ajudar, segons l'informe |
Característiques que ha de tindre la informació espacial i les seues metadades. |
|
|
Especificacions de dades de la Directiva Inspire (data specifications) |
Models, esquemes i regles de codificació per a diferents àrees temàtiques de dades espacials.
|
|
Servicis de xarxa d'Inspire (network services) |
Conjunt d'interfícies comunes per a servicis web que permeten el descobriment, visualització, descàrrega i transformació de dades espacials. |
|
Directrius tècniques per a les metadades d'Inspire (Inspire technical guidelines for metadata) |
Directrius tècniques per a metadades, amb els elements mínims a incloure definits en el Reglament 1205/2008 de la Comissió. |
|
Extensió del perfil d'aplicació DCAT per a descriure conjunts de dades geoespacials. |
|
|
Core Location Vocabulary |
Model de dades simplificat que inclou les característiques fonamentals d'una ubicació, representada com una direcció o nom geogràfic, o a través de geometria. |
|
Vocabulari controlat especialitzat en informació mediambiental. Disposa d'una secció de conceptes lligats amb les categories de dades espacials incloses en Inspire. |
|
|
Recomanació del W3C per a descriure els sensors i les seues observacions. |
|
|
Conjunt d'ontologies que definixen classes bàsiques, propietats i restriccions utilitzades per a modelar magnituds físiques, unitats de mesura i les seues dimensions en diversos sistemes de mesurament. |
|
|
Classificacions estadístiques mantingudes per Eurostat, disponibles com Linked Open Data en XKOS, l'extensió de SKOS per a modelar classificacions estadístiques. Es presenten per família de classificació, categoritzades per àmbit estadístic i subdominis (per exemple, NAIX per a l'activitat econòmica, la qual descriurem més avant). |
|
|
Conjuntos predefinidos y organizados de elementos que presentan conceptos estadísticos mediante códigos únicos |
|
|
Iniciativa mundial per a normalitzar i harmonitzar l'intercanvi de dades i metadades estadístiques. Oferix normes tècniques (el model d'informació SDMX), directrius, una arquitectura informàtica, ferramentes i una sèrie de tutorials per a ajudar als usuaris. |
|
|
Ontologia per a descriure dades multidimensionales, com les estadístiques, que es basa en el nucli del model d'informació SDMX 2.0. |
|
|
Esmentat pel propi reglament, consistix en un model de dades simplificat que captura les característiques fonamentals d'una entitat jurídica, com el seu nom legal, activitat o direcció. |
|
|
Codis per a la classificació d'activitats econòmiques en la Unió Europea. La seua revisió NAIX 2 va ser publicada per la Comissió Europea a l'octubre de 2022 |
|
|
Ontologia del W3C per a recolzar la publicació de dades enllaçades relatives a informació organitzativa, és a dir, proporciona una sèrie de formes de representar la relació entre les persones i les organitzacions, juntament amb l'estructura d'informació interna d'una organització. |
|
|
Base de dades centralitzada amb informació sobre les persones jurídiques que participen en els mercats financers mundials. Assigna a cada entitat un codi únic d'Identificador de Persones Jurídiques (Legal Entity Identifier o LEI) reconegut a escala mundial. |
|
|
Taxonomia NST |
Sistema de classificació per a les mercaderies transportades a través de carretera, ferrocarril, vies navegables interiors i mar. Té en compte l'activitat econòmica associada a l'origen de les mercaderies. |
|
Taula d'autoritats de "Transport service" |
Llista de codis dels diferents tipus de servicis de transport facilitada per la secció de Vocabularis de la UE . |
|
L'informe també esmenta alguns models a utilitzar en l'àmbit de ciutats intel·ligents, com Smart Data Models i l'espanyola Ciutats Obertes .
-
L'aplicació d'aquests models. L'últim pas és l'harmonització real de les dades. Una vegada seleccionats els models a utilitzar, és el moment d'aplicar-los. En esta fase es realitzaran els processos de conversió necessaris per a proporcionar les dades en els formats adequats i amb metadades de qualitat unificats. La forma d'aplicar estes transformacions variarà en funció del resultat final previst. Per exemple, pot consistir a transformar dades tabulars (valors separats per comes o CSV, Excel, bases de dades relacionals, etc.) en altres fonts de dades també tabulars però que seguisquen l'estructura proporcionada en els models de dades comunes. També es pot anar més enllà i transformar-los en representacions basades en arbres (com JSON) o en RDF d'acord amb les ontologies i vocabularis controlats que se seleccionen.
Conclusions de l'informe
L'informe finalitza amb una sèrie de conclusions i recomanacions. Encara existixen reptes entorn de/entorn de la identificació dels HVD i l'aplicació del Reglament d'execució en tots els països europeus, sobretot a l'hora de conscienciar i difondre sobre la seua importància. En les categories de HVD en les quals existixen grans iniciatives d'harmonització de dades, com Inspire sobre dades geoespacials o Eurostat sobre HVD estadístics, podem trobar una major quantitat de dades disponibles de manera interoperable i harmonitzada. Per contra, en les categories en les quals no existix una iniciativa adoptada de forma majoritària, com les empreses i la propietat de les empreses, encara queda camí per recórrer per a aplicar el reglament.
Les recomanacions que planteja l'informe del Portal Europeu de Dades ajuden a configurar un full de ruta per a publicar els conjunts de dades d'alt valor en cadascuna de les categories definides per la Comissió Europea. Un repte que les administracions hauran d'abordar durant 2024 i que facilitarà la reutilització de la informació pública.