Garantir a calidade dos datos é unha tarefa primordial para calquera iniciativa open data. Antes da súa publicación, é necesario validar os conxuntos de datos para comprobar que non conteñen erros, duplicidades, etc. Desta maneira, o seu potencial de reutilización crecerá.
A calidade dos datos está condicionada por moitos aspectos. En ese sentido, no marco de de a Iniciativa Achega elaborouse a “Guía práctica para a mellora da calidade de datos abertos” , que proporciona un compendio de directrices para actuar sobre las distintas características que definen la calidad e impulsar su mejora.
A guía inclúe unha listaxe con algunhas ferramentas gratuítas dirixidas a aplicar medidas correctoras sobre os datos en orixe. En este artigo mostrámosche algúns exemplos. Se trata de ferramentas útiles para traballar aspectos concretos relacionados coa calidade, polo que o seu maior ou menor utilidade dependerá dos datos cos que esteas a traballar e as súas características.
- Utf-8 tools
. Se trata dunha colección de ferramentas en liña para realizar tarefas de conversión de formatos e codificación de caracteres. Podes seleccionar entre distintos conversores, pero destacamos as ferramentas para traballar coa codificación UTF8
. Esta colección compila un amplo catálogo de ferramentas ferramentas de programación
, que ofrecen funcionalidades de conversión, encriptación, xeración de contrasinais, edición e xestión de textos e imaxes, conversión de datas e horas, realización de operacións matemáticas, etc. Todas as ferramentas son gratuítas, sen anuncios intrusivos, e fáciles de usar grazas a unha interface de usuario sinxela. Ademais, cada unha delas inclúe exemplos de uso.
- CSV-LINT
. Xestionada polo Open Data Institute, esta ferramenta en liña permite comprobar se un arquivo CSV é legible por máquinas e verificar que inclúe as columnas e os tipos de valores que debería. Tamén permite engadir esquemas aos arquivos de datos. Tras a análise, xera un informe cos resultados e unha marca que pode ser embebida no portal de datos desde o que se serve o dataset avaliado. Aunque é moi sinxela de utilizar (só hai que cargar o arquivo que se quere verificar e facer clic no botón de validar), a web inclúe un apartado de axuda
. Traballa ben con arquivos de ata 100 Mb de tamaño. Tamén ofrece un sinxelo manual con directrices sobre como crear un arquivo en formato CSV correctamente e evitar os erros máis comúns.
- DenCode
. Ofrece ferramentas de codificación e descodificación en liña. Entre as funcionalidades que ofrece destaca esta ferramenta que axuda aos publicadores na conversión de datos tipo data ao formato ISO 8601
, que é o estándar internacional que facilita a homogenización deste tipo de datos e a súa interoperabilidade. A ferramenta é moi intuitiva, xa que só é necesario escribir, no apartado habilitado para iso, a data e hora a converter.
- XML Escape / Unescape
. Esta es una herramienta online de código abierto, utilizada para el “escapado” o enmascaramiento de caracteres especiales en XML y la realización del proceso inverso. A ferramenta encárgase de eliminar os rastros daqueles caracteres que poderían ser interpretados erroneamente. Do mesmo xeito que no caso anterior, a ferramenta é moi intuitiva. Só é necesario copiar e pegar o fragmento a tratar no editor.
- JSONlint
. Este é un validador y reformulador para JSON, que permite chequear si el código es válido de acuerdo a dicha especificación. Conta cun editor onde escribir ou copiar e pegar o código, aínda que tamén se pode introducir directamente una url para a súa validación. JSONLint analizará este código para atopar e suxerir a corrección dos erros explicando, ademais, os multiples motivos polos que se poden producir. A ferramenta tamén pode ser utilizada como compresor, reducindo desta forma o tamaño dos arquivos. En a súa web inclúe información sobre boas prácticas á hora de traballar co formato JSON, así como información sobre erros comúns.
- Open Refine
. Es unha ferramenta pensada para o tratamento e enriquecemento de datos: permite limpalos, transformar o seu formato e amplialos con servizos web e datos externos. Unha dos seus principais características é que utiliza unha linguaxe propia, GREL (Google Refine Expression Languaje), que permite realizar tarefas de depuración avanzadas. Está dispoñible en máis de 15 idiomas. En a súa páxina web ofrece varios vídeos
que explican o seu funcionamento. Tamén conta cunha sección de documentación documentación
con cursos en liña, guías e preguntas frecuentes. Ademais, os usuarios poden recorrer á ampla comunidade
e aos grupos de discusión en Google
, Gitter
e Stackoverflow
, para solucionar dúbidas e compartir experiencias.
- GraphDB OntoRefine
. OpenRefine permite engadir diferentes extensións. Unha delas
é a que permite transformar datos tabulares a un esquema RDF a través dun punto SPARQL. Os formatos concretos cos que permite traballar son: TSV, CSV, SV, XLS, XLSX, JSON, XML, RDF como XML e Google sheet. A interface visual guía na elección dos predicados, a definición dos mapeos de tipos de datos a RDF e a implementación de transformacións complexas utilizando a linguaxe GREL. Na web
inclúe información sobre como utilizar a ferramenta, así como casos de uso.
- JSON Schema Generator
. Esta ferramenta permite xerar e validar JSON schemas a partir de arquivos JSON. Estes esquemas permiten describir formatos de datos existentes, proporcionando unha documentación clara e legible tanto para as persoas como para as máquinas. Na web de JSON Schema tes distintos materiais formativos
á túa disposición, incluíndo exemplos, e información sobre distintas implementacións
. Tamén podes aprender máis sobre JSON schema no seu perfil de Github Github
.
- SHACL Playground
. Se trata dunha ferramenta en liña de validación para a especificación SHACL, estándar do W3C para validar grafos RDF contra un conxunto de condicións
expresadas en SHACL. Do mesmo xeito que nas ferramentas anteriores, só é necesario cortar e pegar o código para que se proceda á súa validación. A ferramenta ofrece algúns exemplos de uso. Ademais, todo o código está dispoñibles en Github Github .
- Swagger
. É unha ferramenta para a edición e validación de especificacións que seguen o estándar OpenAPI. Aínda que conta cunha versión de pago con máis funcionalidades, os usuarios poden crear unha conta gratuíta que lles permitirá deseñar a documentación de APIS de forma rápida e estandarizada. Dita versión gratuíta conta con funcionalidades de detección intelixente de erros e autocompletado de sintaxes.
- Sphinx
. Este é un software de código aberto para xerar calquera tipo de documentación sobre os datos. Permite crear estruturas xerárquicas de contidos e índices automáticos, así como ampliar as referencias cruzadas a través do marcado semántico e as ligazóns automáticas para funcións, clases, citas, termos de glosario e pezas de información similares. Utiliza a linguaxe de marcado reStructuredText
por defecto, e pode ler MyST markdown
a través de extensións de terceiros. A través de a súa web
podes acceder a unha gran cantidade de tutoriales e guías. Ademais, conta cunha importante comunidade de usuarios.
- ReadTheDocs . Trátase dun software de código aberto para aloxar e documentar a semántica dos datos, similar ao anterior. O seu obxectivo é simplificar a xeración de documentación do software ao automatizar a creación, o control de versións e o aloxamento de documentacións. Conta cun extenso tutorial
onde indica os pasos a seguir para crear un proxecto de documentación.
- Title Case
. Esta ferramenta permite converter as palabras que integran un texto en maiúsculas e/ou minúsculas. O usuario só ten que introducir un texto e a ferramenta convérteo a distintos formatos: todo maiúsculas, todo minúsculas, Title Case (onde todas as palabras importantes comezan con maiúsculas, mentres que os termos menores, como artigos ou preposicións, van en minúsculas) ou AP-Style Title Case (onde todos os termos comezan con maiúsculas).
Isto é só un exemplo dalgunhas ferramentas en liña que poden axudar a traballar sobres aspectos relacionados coa calidade dos datos. Se queres recomendar algunha outra ferramenta, podes deixar un comentario ou escribir a dinamizacion@datos.gob.es dinamizacion@datos.gob.es .