Per a complir amb la Directiva (UE) 2019/1024 i el seu posterior reglamente d'execució , los estados miembros de la Unión Europea están trabajando en la puesta a disposición de los llamados dades d'alt valor (high-value dataset o HVD, en anglés). L'objectiu és que ciutadans i empreses puguen accedir a aquestes dades baix uns requisits tècnics que afavorisquen la seua reutilització i el seu impacte positiu en la societat, l'economia i el medi ambient.
La apertura de estos conjuntos de datos supone un gran reto para las administraciones públicas de todos los países de la Unión Europea. Aunque muchos de estos datos ya están a disposición de los usuarios, los países deben identificarlos para poder informar sobre ellos y resolver la alta heterogeneidad en los formatos, estructuras y semánticas. En concreto, a partir de febrero de 2025, los Estados miembros tendrán que informar a la Comisión cada dos años sobre los conjuntos de datos de alto valor disponibles, incluyendo los enlaces a las condiciones de las licencias y las API.
Per a ajudar en esta tasca, el Portal Europeu de Dades ha publicat l'informe “ Report on Data Homogenisation for High-value Datasets” on proposa un enfocament metodològic per a facilitar la identificació i homogeneïtzació dels HVD. Entre altres qüestions, l'informe oferix exemples d'estàndards que ajuden a aconseguir una major interoperabilitat no solament entre dades, sinó també entre les aplicacions que els utilitzen.
Un mètode per a la identificació i homogeneïtzació
L'informe descriu una aproximació metodològica basada en tres passos:
-
La identificació dels HVD en els portals de dades ja existents. Aunque existixen algunes pautes per a la publicació de HVD, com estes per a aplicar DCAT-AP , la forma de nombrar a los conjuntos de datos ya publicados no es uniforme, lo que hace difícil encontrarlos. El informe propone un protocolo que consiste en definir palabras clave, partiendo de los conjuntos de datos y sus atributos asociados, contenidos en el anexo I del Reglamento de Ejecución. Se trata de utilizar dichas palabras clave para buscar en los distintos portales de datos ya existentes. El informe explica cómo se ha testeado el protocolo de identificación con conjuntos de datos de las categorías de registros empresariales, datos estadísticos y datos sobre redes de transporte, incluyendo tablas con las palabras clave utilizadas.
-
Localització o desenvolupament de models de dades, ontologies, vocabularis controlats i/o API comuns. En esta secció, l'informe descriu alguns recursos d'utilitat, els quals es resumixen en la següent taula:
Recurs |
Descripció |
Categoria de dades en les quals més poden ajudar, segons l'informe |
Característiques que ha de tindre la informació espacial i les seues metadades. |
|
|
Especificacions de dades de la Directiva Inspire (data specifications) |
Modelos, esquemas y reglas de codificación para diferentes áreas temáticas de datos espaciales.
|
|
Servicis de xarxa d'Inspire (network services) |
Conjunt d'interfícies comunes per a servicis web que permeten el descobriment, visualització, descàrrega i transformació de dades espacials. |
|
Directrius tècniques per a les metadades d'Inspire (Inspire technical guidelines for metadata) |
Directrices técnicas para metadatos, con los elementos mínimos a incluir definidos en el Reglament 1205/2008 de la Comissió. |
|
Extensió del perfil d'aplicació DCAT per a descriure conjunts de dades geoespacials. |
|
|
Core Location Vocabulary |
Model de dades simplificat que inclou les característiques fonamentals d'una ubicació, representada com una direcció o nom geogràfic, o a través de geometria. |
|
Vocabulario controlat especialitzat en informació mediambiental. Disposa d'una secció de conceptes lligats amb les categories de dades espacials incloses en Inspire. |
|
|
Recomanació del W3C per a descriure els sensors i les seues observacions. |
|
|
Conjunt d'ontologies que definixen classes bàsiques, propietats i restriccions utilitzades per a modelar magnituds físiques, unitats de mesura i les seues dimensions en diversos sistemes de mesurament. |
|
|
Clasificaciones estadístiques mantingudes per Eurostat, disponibles com Linked Open Data en XKOS, l'extensió de SKOS per a modelar classificacions estadístiques. Es presenten per família de classificació, categoritzades per àmbit estadístic i subdominis (per exemple, NAIX per a l'activitat econòmica, la qual descriurem més avant). |
|
|
Conjuntos predefinidos y organizados de elementos que presentan conceptos estadísticos mediante códigos únicos |
|
|
Iniciativa mundial per a normalitzar i harmonitzar l'intercanvi de dades i metadades estadístiques. Oferix normes tècniques (el model d'informació SDMX), directrius, una arquitectura informàtica, ferramentes i una sèrie de tutorials per a ajudar als usuaris. |
|
|
Ontología per a descriure dades multidimensionales, com les estadístiques, que es basa en el nucli del model d'informació SDMX 2.0. |
|
|
Esmentat pel propi reglament, consistix en un model de dades simplificat que captura les característiques fonamentals d'una entitat jurídica, com el seu nom legal, activitat o direcció. |
|
|
Códigos per a la classificació d'activitats econòmiques en la Unió Europea. La seua revisió NAIX 2 va ser publicada per la Comissió Europea a l'octubre de 2022 |
|
|
Ontología del W3C per a recolzar la publicació de dades enllaçades relatives a informació organitzativa, és a dir, proporciona una sèrie de formes de representar la relació entre les persones i les organitzacions, juntament amb l'estructura d'informació interna d'una organització. |
|
|
Base de dades centralitzada amb informació sobre les persones jurídiques que participen en els mercats financers mundials. Assigna a cada entitat un codi únic d'Identificador de Persones Jurídiques (Legal Entity Identifier o LEI) reconegut a escala mundial. |
|
|
Taxonomía NST |
Sistema de classificació per a les mercaderies transportades a través de carretera, ferrocarril, vies navegables interiors i mar. Tiene en cuenta l'activitat econòmica associada a l'origen de les mercaderies. |
|
Taula d'autoritats de "Transport service" |
Llista de codis dels diferents tipus de servicis de transport facilitada per la secció de Vocabularis de la UE . |
|
L'informe també esmenta alguns models a utilitzar en l'àmbit de ciutats intel·ligents, com Smart Data Models i l'espanyola Ciudades Abiertas .
-
L'aplicació d'aquests models. L'últim pas és l'harmonització real de les dades. Una vegada seleccionats els models a utilitzar, és el moment d'aplicar-los. En esta fase es realitzaran els processos de conversió necessaris per a proporcionar les dades en els formats adequats i amb metadades de qualitat unificats. La forma d'aplicar estes transformacions variarà en funció del resultat final previst. Per exemple, pot consistir a transformar dades tabulars (valors separats per comes o CSV, Excel, bases de dades relacionals, etc.) en altres fonts de dades també tabulars però que seguisquen l'estructura proporcionada en els models de dades comunes. També es pot anar més enllà i transformar-los en representacions basades en arbres (com JSON) o en RDF d'acord amb les ontologies i vocabularis controlats que se seleccionen.
Conclusions de l'informe
L'informe finalitza amb una sèrie de conclusions i recomanacions. Encara existixen reptes entorn de/entorn de la identificació dels HVD i l'aplicació del Reglament d'execució en tots els països europeus, sobretot a l'hora de conscienciar i difondre sobre la seua importància. En les categories de HVD en les quals existixen grans iniciatives d'harmonització de dades, com Inspire sobre dades geoespacials o Eurostat sobre HVD estadístics, podem trobar una major quantitat de dades disponibles de manera interoperable i harmonitzada. Per contra, en les categories en les quals no existix una iniciativa adoptada de forma majoritària, com les empreses i la propietat de les empreses, encara queda camí per recórrer per a aplicar el reglament.
Les recomanacions que planteja l'informe del Portal Europeu de Dades ajuden a configurar un full de ruta per a publicar els conjunts de dades d'alt valor en cadascuna de les categories definides per la Comissió Europea. Un repte que les administracions hauran d'abordar durant 2024 i que facilitarà la reutilització de la informació pública.