accesskey_mod_content

Ferramentas gratuítas para traballar aspectos relacionados coa calidade dos datos

  • Escoitar
  • Copiar
  • Imprimir PDF
  • Compartir

"Noticia dispoñible unicamente con fins históricos e de hemeroteca. A información e ligazóns mostradas correspóndense cos que estaban operativos á data da súa publicación. Non se garante que continúen activos actualmente".

13 outubro 2022

A “Guía práctica para a mellora da calidade de datos abertos” inclúe unha listaxe con algunhas ferramentas gratuítas dirixidas a aplicar medidas correctoras sobre os datos en orixe.

Garantir a calidade dos datos é unha tarefa primordial para calquera iniciativa open data. Antes da súa publicación, é necesario validar os conxuntos de datos para comprobar que non conteñen erros, duplicidades, etc. Desta maneira, o seu potencial de reutilización crecerá.

A calidade dos datos está condicionada por moitos aspectos. En ese sentido, no marco de de a Iniciativa Achega elaborouse a “Guía práctica para a mellora da calidade de datos abertos”(Abre en nova xanela) , que proporciona un compendio de directrices para actuar sobre as distintas características que definen a calidade e impulsar a súa mellora.

A guía inclúe unha listaxe con algunhas ferramentas gratuítas dirixidas a aplicar medidas correctoras sobre os datos en orixe. En este artigo mostrámosche algúns exemplos. Se trata de ferramentas útiles para traballar aspectos concretos relacionados coa calidade, polo que o seu maior ou menor utilidade dependerá dos datos cos que esteas a traballar e as súas características.

  • Utf-8 tools(Abre en nova xanela) . Se trata dunha colección de herramientas online para realizar tareas de conversión de formatos y codificación de caracteres. Podes seleccionar entre distintos conversores, pero destacamos as ferramentas para traballar coa codificación UTF8(Abre en nova xanela) . Esta colección compila un amplo catálogo de ferramentas ferramentas de programación(Abre en nova xanela) , que ofrecen funcionalidades de conversión, encriptación, xeración de contrasinais, edición e xestión de textos e imaxes, conversión de datas e horas, realización de operacións matemáticas, etc. Todas as ferramentas son gratuítas, sen anuncios intrusivos, e fáciles de usar grazas a unha interface de usuario sinxela. Ademais, cada unha delas inclúe exemplos de uso.
  • CSV-LINT(Abre en nova xanela) . Xestionada polo Open Data Institute, esta ferramenta en liña permite comprobar se un arquivo CSV é legible por máquinas e verificar que inclúe as columnas e os tipos de valores que debería. Tamén permite engadir esquemas aos arquivos de datos. Tras a análise, xera un informe cos resultados e unha marca que pode ser embebida no portal de datos desde o que se serve o dataset avaliado. Aunque é moi sinxela de utilizar (só hai que cargar o arquivo que se quere verificar e facer clic no botón de validar), a web inclúe un apartado de axuda(Abre en nova xanela) . Traballa ben con arquivos de ata 100 Mb de tamaño. Tamén ofrece un sinxelo manual con directrices sobre como crear un arquivo en formato CSV correctamente e evitar os erros máis comúns.
  • DenCode(Abre en nova xanela) . Ofrece ferramentas de codificación e descodificación en liña. Entre as funcionalidades que ofrece destaca esta ferramenta que axuda aos publicadores na conversión de datos tipo data ao formato ISO 8601(Abre en nova xanela) , que é o estándar internacional que facilita a homogenización deste tipo de datos e a súa interoperabilidade. A ferramenta é moi intuitiva, xa que só é necesario escribir, no apartado habilitado para iso, a data e hora a converter.
  • XML Escape / Unescape(Abre en nova xanela) . Esta é unha ferramenta en liña de código aberto, utilizada para o “escapado” ou enmascaramiento de caracteres especiais en XML e a realización do proceso inverso. La herramienta se encarga de eliminar los rastros de aquellos caracteres que podrían ser interpretados erróneamente. Al igual que en el caso anterior, la herramienta es muy intuitiva. Solo es necesario copiar y pegar el fragmento a tratar en el editor.
  • JSONlint(Abre en nova xanela) . Este é un validador e reformulador para JSON, que permite chequear se o código é válido de acordo á este especificación. Conta cun editor onde escribir ou copiar e pegar o código, aínda que tamén se pode introducir directamente una url para a súa validación. JSONLint analizará este código para atopar e suxerir a corrección dos erros explicando, ademais, os multiples motivos polos que se poden producir. A ferramenta tamén pode ser utilizada como compresor, reducindo desta forma o tamaño dos arquivos. En a súa web inclúe información sobre boas prácticas á hora de traballar co formato JSON, así como información sobre erros comúns.
  • Open Refine(Abre en nova xanela) . Es unha ferramenta pensada para o tratamento e enriquecemento de datos: permite limpalos, transformar o seu formato e amplialos con servizos web e datos externos. Unha dos seus principais características é que utiliza unha linguaxe propia, GREL (Google Refine Expression Languaje), que permite realizar tarefas de depuración avanzadas. Está dispoñible en máis de 15 idiomas. Na súa páxina web ofrece varios vídeos(Abre en nova xanela) que explican o seu funcionamento. Tamén conta cunha sección de documentación documentación(Abre en nova xanela) con cursos online, guías y preguntas frecuentes. Además, los usuarios pueden recurrir a su ampla comunidade(Abre en nova xanela) e aos grupos de discusión en  Google(Abre en nova xanela) , Gitter(Abre en nova xanela) e Stackoverflow(Abre en nova xanela) , para solucionar dúbidas e compartir experiencias.
  • GraphDB OntoRefine(Abre en nova xanela)OpenRefine permite engadir diferentes extensións. Unha delas(Abre en nova xanela) é a que permite transformar datos tabulares a un esquema RDF a través de un punto SPARQL. Los formatos concretos con los que permite trabajar son: TSV, CSV, SV, XLS, XLSX, JSON, XML, RDF como XML y Google sheet. La interfaz visual guía en la elección de los predicados, la definición de los mapeos de tipos de datos a RDF y la implementación de transformaciones complejas utilizando el lenguaje GREL. En su web(Abre en nova xanela) inclúe información sobre como utilizar a ferramenta, así como casos de uso.
  • JSON Schema Generator(Abre en nova xanela) . Esta ferramenta permite xerar e validar JSON schemas a partir de arquivos JSON. Estes esquemas permiten describir formatos de datos existentes, proporcionando unha documentación clara e legible tanto para as persoas como para as máquinas. Na web de JSON Schema tes distintos materiais formativos(Abre en nova xanela) á túa disposición, incluíndo exemplos, e información sobre distintas implementacións(Abre en nova xanela) . Tamén podes aprender máis sobre JSON schema no seu perfil de Github Github(Abre en nova xanela) .
  • SHACL Playground(Abre en nova xanela) . Se trata dunha ferramenta en liña de validación para a especificación SHACL, estándar do W3C para validar grafos RDF contra un conxunto de condicións(Abre en nova xanela) expresadas en SHACL. Al igual que en las herramientas anteriores, solo es necesario cortar y pegar el código para que se proceda a su validación. La herramienta ofrece algunos ejemplos de uso. Además, todo el código está disponibles en Github .
  • Swagger(Abre en nova xanela) . Es una herramienta para la edición y validación de especificaciones que siguen el estándar OpenAPI. Aunque cuenta con una versión de pago con más funcionalidades, los usuarios pueden crear una cuenta gratuita que les permitirá diseñar la documentación de APIS de forma rápida y estandarizada. Dicha versión gratuita cuenta con funcionalidades de detección inteligente de errores y autocompletado de sintaxis.
  • Sphinx(Abre en nova xanela) . Este é un software de código aberto para xerar calquera tipo de documentación sobre os datos. Permite crear estruturas xerárquicas de contidos e índices automáticos, así como ampliar as referencias cruzadas a través do marcado semántico e as ligazóns automáticas para funcións, clases, citas, termos de glosario e pezas de información similares. Utiliza a linguaxe de marcado reStructuredText(Abre en nova xanela) por defecto, e pode ler MyST markdown(Abre en nova xanela) a través de extensións de terceiros. A través de a súa web(Abre en nova xanela) podes acceder a unha gran cantidade de tutoriales e guías. Ademais, conta cunha importante comunidade de usuarios.
  • ReadTheDocs . Trátase dun software de código aberto para aloxar e documentar a semántica dos datos, similar ao anterior. O seu obxectivo é simplificar a xeración de documentación do software ao automatizar a creación, o control de versións e o aloxamento de documentacións. Conta cun extenso tutorial(Abre en nova xanela) onde indica os pasos a seguir para crear un proxecto de documentación.
  • Title Case(Abre en nova xanela) . Esta ferramenta permite converter as palabras que integran un texto en maiúsculas e/ou minúsculas. O usuario só ten que introducir un texto e a ferramenta convérteo a distintos formatos: todo maiúsculas, todo minúsculas, Title Case (onde todas as palabras importantes comezan con maiúsculas, mentres que os termos menores, como artigos ou preposicións, van en minúsculas) ou AP-Style Title Case (onde todos os termos comezan con maiúsculas).

Isto é só un exemplo dalgunhas ferramentas en liña que poden axudar a traballar sobres aspectos relacionados coa calidade dos datos. Se queres recomendar algunha outra ferramenta, podes deixar un comentario ou escribir a dinamizacion@datos.gob.es dinamizacion@datos.gob.es .

Fonte orixinal da noticia(Abre en nova xanela)

 

  • Información e datos do sector público