" /> PAe - O informe do Portal Europeo de Datos cos estándares para homoxeneizar os datos de alto valor
accesskey_mod_content

O informe do Portal Europeo de Datos cos estándares para homoxeneizar os datos de alto valor

  • Escoitar
  • Imprimir PDF
  • Compartir

24 xaneiro 2024

O Portal Europeo de Datos publicou o informe “Report on Data Homogenisation for High-value Datasets” onde propón un enfoque metodolóxico para facilitar a identificación e homoxeneización dos "datos de alto valor" para cumprir con a Directiva (UE) 2019/1024.

Para cumprir con a  Directiva (UE) 2019/1024  e o seu posterior  regulamento de execución , os estados membros da Unión Europea están a traballar na posta a disposición dos chamados  datos de alto valor  (high-value dataset ou HVD, en inglés). O obxectivo é que cidadáns e empresas poidan acceder a  este datos  baixo uns requisitos técnicos que favorezan a súa reutilización e o seu impacto positivo na sociedade, a economía e o medio ambiente.

A apertura destes conxuntos de datos supón un gran reto para as administracións públicas de todos os países da Unión Europea. Aínda que moitos destes datos xa están a disposición dos usuarios, os países deben identificalos para poder informar sobre eles e resolver a alta heteroxeneidade nos formatos, estruturas e semánticas. En concreto, a partir de febreiro de 2025, os Estados membros terán que informar á Comisión cada dous anos sobre os conxuntos de datos de alto valor dispoñibles, incluíndo as ligazóns ás condicións das licenzas e o API.

Para axudar nesta tarefa, o  Portal Europeo de Datos  publicou o informe “ Report on Data Homogenisation for High-value Datasets”  onde propón un enfoque metodolóxico para facilitar a identificación e homoxeneización de os HVD. Entre outras cuestións, o informe ofrece exemplos de estándares que axudan a conseguir unha maior interoperabilidade non só entre datos, senón tamén entre as aplicacións que os utilizan.

Un método para a identificación e homoxeneización

O informe describe unha aproximación metodolóxica baseada en tres pasos:

  1. A identificación de os HVD nos portais de datos xa existentes. Aínda que existen algunhas pautas para a publicación de HVD,   como estas para aplicar DCAT-AP , a forma de nomear aos conxuntos de datos xa publicados non é uniforme, o que fai difícil atopalos. O informe propón un protocolo que consiste en definir palabras crave, partindo dos conxuntos de datos e os seus atributos asociados, contidos no anexo I do Regulamento de Execución. Trátase de utilizar as ditas palabras crave para buscar nos distintos portais de datos xa existentes. O informe explica como se ha testeado o protocolo de identificación con conxuntos de datos das categorías de rexistros empresariais, datos estatísticos e datos sobre redes de transporte, incluíndo táboas coas palabras crave utilizadas.

  2. Localización ou desenvolvemento de modelos de datos, ontologías, vocabularios controlados e/ou API comúns. Nesta sección, o informe describe algúns recursos de utilidade, os cales se resumen na seguinte táboa:

Recurso

Descrición

Categoría de datos nas que máis poden axudar, segundo o informe

Directiva Inspire

Características que debe ter a información espacial e os seus metadatos.

  • Datos geoespaciales
  • Datos de Observación da Terra e ambiental.
  • Datos meteorolóxicos
  • Datos sobre redes de transporte.

Especificacións de datos da Directiva Inspire

(data specifications)

Modelos, esquemas e regras de codificación para diferentes áreas temáticas de datos espaciais.

 

 

  • Datos geoespaciales
  • Datos de Observación da Terra e ambiental
  • Datos meteorolóxicos
  • Datos sobre redes de transporte.

Servizos de rede de Inspire  (network services)

Conxunto de interfaces comúns para servizos web que permiten o descubrimento, visualización, descarga e transformación de datos espaciais.

  • Datos geoespaciales
  • Datos de Observación da Terra e ambiental
  • Datos meteorolóxicos
  • Datos sobre redes de transporte.

Directrices técnicas para os metadatos de Inspire

(Inspire technical guidelines for metadata)

Directrices técnicas para metadatos, cos elementos mínimos a incluír definidos en o  Regulamento 1205/2008  da Comisión.

  • Datos geoespaciales
  • Datos de Observación da Terra e ambiental
  • Datos meteorolóxicos
  • Datos sobre redes de transporte.

Geo-DCATAP

Extensión do perfil de aplicación DCAT para describir conxuntos de datos geoespaciales.

  • Datos geoespaciales

Core Location Vocabulary

Modelo de datos simplificado que inclúe as características fundamentais dunha localización, representada como unha dirección ou nome xeográfico, ou a través de xeometría.

  • Datos geoespaciales

Xeral Multilingual Environmental Thesaurus (GEMET) .

Vocabulario controlado especializado en información ambiental. Dispón dunha sección de conceptos ligados coas categorías de datos espaciais incluídas en Inspire.

  • Datos geoespaciales
  • Datos de Observación da Terra
  • Datos sobre redes de transporte.

Semantic Sensor Network

Recomendación do W3C para describir os sensores e as súas observacións.

  • Datos meteorolóxicos

Quantity, unit, dimension and type (QUDT) .

Conxunto de ontologías que definen clases básicas, propiedades e restricións utilizadas para modelar magnitudes físicas, unidades de medida e as súas dimensións en diversos sistemas de medición.

  • Datos meteorolóxicos

Lista de clasificacións estatísticas de Eurostat

Clasificacións estatísticas mantidas por Eurostat, dispoñibles como Linked Open Data en XKOS, a extensión de SKOS para modelar clasificacións estatísticas. Preséntanse por familia de clasificación, categorizadas por ámbito estatístico e subdominios (por exemplo, NACE para a actividade económica, a cal describiremos máis adiante).

  • Datos estatísticos

Listas de códigos estándar de Eurostat

Conjuntos predefinidos y organizados de elementos que presentan conceptos estadísticos mediante códigos únicos

  • Datos estatísticos

Statistical Data and Metadata eXchange (SDMX)

Iniciativa mundial para normalizar e harmonizar o intercambio de datos e metadatos estatísticos. Ofrece normas técnicas (o modelo de información SDMX), directrices, unha arquitectura informática, ferramentas e unha serie de tutoriales para axudar aos usuarios.

  • Datos estatísticos

RDF Data Cube Vocabulary

Ontología para describir datos multidimensionales, como as estatísticas, que se basea no núcleo do modelo de información SDMX 2.0.

  • Datos estatísticos

Core Business Vocabulary

Mencionado polo propio regulamento, consiste nun modelo de datos simplificado que captura as características fundamentais dunha entidade xurídica, como o seu nome legal, actividade ou dirección.

  • Rexistros empresariais

Código NACE

Códigos para a clasificación de actividades económicas na Unión Europea. A súa revisión  NACE 2  foi publicada pola Comisión Europea en outubro de 2022

  • Rexistros empresariais

Organization ontology

Ontología do W3C para apoiar a publicación de datos enlazados relativos a información organizativa, é dicir, proporciona unha serie de formas de representar a relación entre as persoas e as organizacións, xunto coa estrutura de información interna dunha organización.

  • Rexistros empresariais

Global Legal Entity Identifier Foundation

Base de datos centralizada con información sobre as persoas xurídicas que participan nos mercados financeiros mundiais. Asigna a cada entidade un código único de Identificador de Persoas Xurídicas (Legal Entity Identifier ou LEI) recoñecido a escala mundial.

  • Rexistros empresariais

Taxonomía NST

Sistema de clasificación para as mercadorías transportadas a través de estrada, ferrocarril, vías navegables interiores e mar. Ten en conta a actividade económica asociada á orixe das mercadorías.

  • Datos sobre redes de transporte.

Táboa de autoridades de "Transport service"

Lista de códigos dos distintos tipos de servizos de transporte facilitada pola sección de  Vocabularios da UE .

  • Datos sobre redes de transporte.

O informe tamén menciona algúns modelos a utilizar no ámbito de cidades intelixentes, como   Smart Data Models  e as española  Cidades Abertas .

  1. A aplicación do este modelos. O último paso é a armonización real dos datos. Unha vez seleccionados os modelos a utilizar, é o momento de aplicalos. Nesta fase realizaranse os procesos de conversión necesarios para proporcionar os datos nos formatos adecuados e con metadatos de calidade unificados. A forma de aplicar estas transformacións variará en función do resultado final previsto. Por exemplo, pode consistir en transformar datos tabulares (valores separados por comas ou CSV, Excel, bases de datos relacionais, etc.) noutras fontes de datos tamén tabulares pero que sigan a estrutura proporcionada nos modelos de datos comúns. Tamén se pode ir máis aló e transformalos en representacións baseadas en árbores (como JSON) ou en RDF de acordo con as ontologías e vocabularios controlados que se seleccionen.

Conclusións do informe

O informe finaliza cunha serie de conclusións e recomendacións. Aínda existen retos ao redor da identificación de os HVD e a aplicación do Regulamento de execución en todos os países europeos, sobre todo á hora de concienciar e difundir sobre a súa importancia. Nas categorías de HVD nas que existen grandes iniciativas de armonización de datos, como Inspire sobre datos geoespaciales ou Eurostat sobre HVD estatísticos, podemos atopar unha maior cantidade de datos dispoñibles de maneira interoperable e harmonizada. Pola contra, nas categorías nas que non existe unha iniciativa adoptada de forma maioritaria, como as empresas e a propiedade das empresas, aínda queda camiño por percorrer para aplicar o regulamento.

As recomendacións que expón o informe do Portal Europeo de Datos axudan a configurar unha folla de ruta para publicar os conxuntos de datos de alto valor en cada unha das categorías definidas pola Comisión Europea. Un reto que as administracións deberán abordar durante 2024 e que facilitará a reutilización da información pública.

Fonte orixinal da noticia(Abre en nova xanela)

  • Información e datos do sector público