accesskey_mod_content

Ferramentas gratuítas para traballar aspectos relacionados coa calidade dos datos

  • Escoitar
  • Copiar
  • Imprimir PDF
  • Compartir

"Noticia dispoñible unicamente con fins históricos e de hemeroteca. A información e ligazóns mostradas correspóndense cos que estaban operativos á data da súa publicación. Non se garante que continúen activos actualmente".

13 outubro 2022

A “Guía práctica para a mellora da calidade de datos abertos” inclúe unha listaxe con algunhas ferramentas gratuítas dirixidas a aplicar medidas correctoras sobre os datos en orixe.

Garantir a calidade dos datos é unha tarefa primordial para calquera iniciativa open data. Antes da súa publicación, é necesario validar os conxuntos de datos para comprobar que non conteñen erros, duplicidades, etc. Desta maneira, o seu potencial de reutilización crecerá.

A calidade dos datos está condicionada por moitos aspectos. En ese sentido, no marco de de a Iniciativa Achega elaborouse a “Guía práctica para a mellora da calidade de datos abertos”(Abre en nova xanela) , que proporciona un compendio de directrices para actuar sobre as distintas características que definen a calidade e impulsar a súa mellora.

A guía inclúe unha listaxe con algunhas ferramentas gratuítas dirixidas a aplicar medidas correctoras sobre os datos en orixe. En este artigo mostrámosche algúns exemplos. Se trata de ferramentas útiles para traballar aspectos concretos relacionados coa calidade, polo que o seu maior ou menor utilidade dependerá dos datos cos que esteas a traballar e as súas características.

  • Utf-8 tools(Abre en nova xanela) . Se trata dunha colección de ferramentas en liña para realizar tarefas de conversión de formatos e codificación de caracteres. Podes seleccionar entre distintos conversores, pero destacamos as ferramentas para traballar coa codificación UTF8(Abre en nova xanela) . Esta colección compila un amplo catálogo de ferramentas ferramentas de programación(Abre en nova xanela) , que ofrecen funcionalidades de conversión, encriptación, xeración de contrasinais, edición e xestión de textos e imaxes, conversión de datas e horas, realización de operacións matemáticas, etc. Todas as ferramentas son gratuítas, sen anuncios intrusivos, e fáciles de usar grazas a unha interface de usuario sinxela. Ademais, cada unha delas inclúe exemplos de uso.
  • CSV-LINT(Abre en nova xanela) . Xestionada polo Open Data Institute, esta ferramenta en liña permite comprobar se un arquivo CSV é legible por máquinas e verificar que inclúe as columnas e os tipos de valores que debería. Tamén permite engadir esquemas aos arquivos de datos. Tras a análise, xera un informe cos resultados e unha marca que pode ser embebida no portal de datos desde o que se serve o dataset avaliado. Aunque é moi sinxela de utilizar (só hai que cargar o arquivo que se quere verificar e facer clic no botón de validar), a web inclúe un apartado de axuda(Abre en nova xanela) . Traballa ben con arquivos de ata 100 Mb de tamaño. Tamén ofrece un sinxelo manual con directrices sobre como crear un arquivo en formato CSV correctamente e evitar os erros máis comúns.
  • DenCode(Abre en nova xanela) . Ofrece ferramentas de codificación e descodificación en liña. Entre as funcionalidades que ofrece destaca esta ferramenta que axuda aos publicadores na conversión de datos tipo data ao formato ISO 8601(Abre en nova xanela) , que é o estándar internacional que facilita a homogenización deste tipo de datos e a súa interoperabilidade. A ferramenta é moi intuitiva, xa que só é necesario escribir, no apartado habilitado para iso, a data e hora a converter.
  • XML Escape / Unescape(Abre en nova xanela) . Esta é unha ferramenta en liña de código aberto, utilizada para o “escapado” ou enmascaramiento de caracteres especiais en XML e a realización do proceso inverso. A ferramenta encárgase de eliminar os rastros daqueles caracteres que poderían ser interpretados erroneamente. Do mesmo xeito que no caso anterior, a ferramenta é moi intuitiva. Só é necesario copiar e pegar o fragmento a tratar no editor.
  • JSONlint(Abre en nova xanela) . Este é un validador e reformulador para JSON, que permite chequear se o código é válido de acordo á este especificación. Conta cun editor onde escribir ou copiar e pegar o código, aínda que tamén se pode introducir directamente una url para a súa validación. JSONLint analizará este código para atopar e suxerir a corrección dos erros explicando, ademais, os multiples motivos polos que se poden producir. A ferramenta tamén pode ser utilizada como compresor, reducindo desta forma o tamaño dos arquivos. En a súa web inclúe información sobre boas prácticas á hora de traballar co formato JSON, así como información sobre erros comúns.
  • Open Refine(Abre en nova xanela) . Es unha ferramenta pensada para o tratamento e enriquecemento de datos: permite limpalos, transformar o seu formato e amplialos con servizos web e datos externos. Unha dos seus principais características é que utiliza unha linguaxe propia, GREL (Google Refine Expression Languaje), que permite realizar tarefas de depuración avanzadas. Está dispoñible en máis de 15 idiomas. En a súa páxina web ofrece varios vídeos(Abre en nova xanela) que explican o seu funcionamento. Tamén conta cunha sección de documentación documentación(Abre en nova xanela) con cursos en liña, guías e preguntas frecuentes. Ademais, os usuarios poden recorrer á ampla comunidade(Abre en nova xanela) e aos grupos de discusión en  Google(Abre en nova xanela) , Gitter(Abre en nova xanela) e Stackoverflow(Abre en nova xanela) , para solucionar dúbidas e compartir experiencias.
  • GraphDB OntoRefine(Abre en nova xanela)OpenRefine permite engadir diferentes extensións. Unha delas(Abre en nova xanela) é a que permite transformar datos tabulares a un esquema RDF a través dun punto SPARQL. Os formatos concretos cos que permite traballar son: TSV, CSV, SV, XLS, XLSX, JSON, XML, RDF como XML e Google sheet. A interface visual guía na elección dos predicados, a definición dos mapeos de tipos de datos a RDF e a implementación de transformacións complexas utilizando a linguaxe GREL. Na web(Abre en nova xanela) inclúe información sobre como utilizar a ferramenta, así como casos de uso.
  • JSON Schema Generator(Abre en nova xanela) . Esta ferramenta permite xerar e validar JSON schemas a partir de arquivos JSON. Estes esquemas permiten describir formatos de datos existentes, proporcionando unha documentación clara e legible tanto para as persoas como para as máquinas. Na web de JSON Schema tes distintos materiais formativos(Abre en nova xanela) á túa disposición, incluíndo exemplos, e información sobre distintas implementacións(Abre en nova xanela) . Tamén podes aprender máis sobre JSON schema no seu perfil de Github Github(Abre en nova xanela) .
  • SHACL Playground(Abre en nova xanela) . Se trata dunha ferramenta en liña de validación para a especificación SHACL, estándar do W3C para validar grafos RDF contra un conxunto de condicións(Abre en nova xanela) expresadas en SHACL. Do mesmo xeito que nas ferramentas anteriores, só é necesario cortar e pegar o código para que se proceda á súa validación. A ferramenta ofrece algúns exemplos de uso. Ademais, todo o código está dispoñibles en Github Github .
  • Swagger(Abre en nova xanela) . É unha ferramenta para a edición e validación de especificacións que seguen o estándar OpenAPI. Aínda que conta cunha versión de pago con máis funcionalidades, os usuarios poden crear unha conta gratuíta que lles permitirá deseñar a documentación de APIS de forma rápida e estandarizada. Dita versión gratuíta conta con funcionalidades de detección intelixente de erros e autocompletado de sintaxes.
  • Sphinx(Abre en nova xanela) . Este é un software de código aberto para xerar calquera tipo de documentación sobre os datos. Permite crear estruturas xerárquicas de contidos e índices automáticos, así como ampliar as referencias cruzadas a través do marcado semántico e as ligazóns automáticas para funcións, clases, citas, termos de glosario e pezas de información similares. Utiliza a linguaxe de marcado reStructuredText(Abre en nova xanela) por defecto, e pode ler MyST markdown(Abre en nova xanela) a través de extensións de terceiros. A través de a súa web(Abre en nova xanela) podes acceder a unha gran cantidade de tutoriales e guías. Ademais, conta cunha importante comunidade de usuarios.
  • ReadTheDocs . Trátase dun software de código aberto para aloxar e documentar a semántica dos datos, similar ao anterior. O seu obxectivo é simplificar a xeración de documentación do software ao automatizar a creación, o control de versións e o aloxamento de documentacións. Conta cun extenso tutorial(Abre en nova xanela) onde indica os pasos a seguir para crear un proxecto de documentación.
  • Title Case(Abre en nova xanela) . Esta ferramenta permite converter as palabras que integran un texto en maiúsculas e/ou minúsculas. O usuario só ten que introducir un texto e a ferramenta convérteo a distintos formatos: todo maiúsculas, todo minúsculas, Title Case (onde todas as palabras importantes comezan con maiúsculas, mentres que os termos menores, como artigos ou preposicións, van en minúsculas) ou AP-Style Title Case (onde todos os termos comezan con maiúsculas).

Isto é só un exemplo dalgunhas ferramentas en liña que poden axudar a traballar sobres aspectos relacionados coa calidade dos datos. Se queres recomendar algunha outra ferramenta, podes deixar un comentario ou escribir a dinamizacion@datos.gob.es dinamizacion@datos.gob.es .

Fonte orixinal da noticia(Abre en nova xanela)

 

  • Información e datos do sector público