Garantir a calidade dos datos é unha tarefa primordial para calquera iniciativa open data. Antes da súa publicación, é necesario validar os conxuntos de datos para comprobar que non conteñen erros, duplicidades, etc. Desta maneira, o seu potencial de reutilización crecerá.
A calidade dos datos está condicionada por moitos aspectos. En ese sentido, no marco de de a Iniciativa Achega elaborouse a “Guía práctica para a mellora da calidade de datos abertos” , que proporciona un compendio de directrices para actuar sobre as distintas características que definen a calidade e impulsar a súa mellora.
A guía inclúe unha listaxe con algunhas ferramentas gratuítas dirixidas a aplicar medidas correctoras sobre os datos en orixe. En este artigo mostrámosche algúns exemplos. Se trata de ferramentas útiles para traballar aspectos concretos relacionados coa calidade, polo que o seu maior ou menor utilidade dependerá dos datos cos que esteas a traballar e as súas características.
- Utf-8 tools . Se trata dunha colección de ferramentas en liña para realizar tarefas de conversión de formatos e codificación de caracteres. Podes seleccionar entre distintos conversores, pero destacamos as ferramentas para traballar coa codificación UTF8 . Esta colección compila un amplo catálogo de ferramentas ferramentas de programación , que ofrecen funcionalidades de conversión, encriptación, xeración de contrasinais, edición e xestión de textos e imaxes, conversión de datas e horas, realización de operacións matemáticas, etc. Todas as ferramentas son gratuítas, sen anuncios intrusivos, e fáciles de usar grazas a unha interface de usuario sinxela. Ademais, cada unha delas inclúe exemplos de uso.
- CSV-LINT . Xestionada polo Open Data Institute, esta ferramenta en liña permite comprobar se un arquivo CSV é legible por máquinas e verificar que inclúe as columnas e os tipos de valores que debería. Tamén permite engadir esquemas aos arquivos de datos. Tras a análise, xera un informe cos resultados e unha marca que pode ser embebida no portal de datos desde o que se serve o dataset avaliado. Aunque é moi sinxela de utilizar (só hai que cargar o arquivo que se quere verificar e facer clic no botón de validar), a web inclúe un apartado de axuda . Traballa ben con arquivos de ata 100 Mb de tamaño. Tamén ofrece un sinxelo manual con directrices sobre como crear un arquivo en formato CSV correctamente e evitar os erros máis comúns.
- DenCode . Ofrece ferramentas de codificación e descodificación en liña. Entre as funcionalidades que ofrece destaca esta ferramenta que axuda aos publicadores na conversión de datos tipo data ao formato ISO 8601 , que é o estándar internacional que facilita a homogenización deste tipo de datos e a súa interoperabilidade. A ferramenta é moi intuitiva, xa que só é necesario escribir, no apartado habilitado para iso, a data e hora a converter.
- XML Escape / Unescape . Esta é unha ferramenta en liña de código aberto, utilizada para o “escapado” ou enmascaramiento de caracteres especiais en XML e a realización do proceso inverso. A ferramenta encárgase de eliminar os rastros daqueles caracteres que poderían ser interpretados erroneamente. Do mesmo xeito que no caso anterior, a ferramenta é moi intuitiva. Só é necesario copiar e pegar o fragmento a tratar no editor.
- JSONlint . Este é un validador e reformulador para JSON, que permite chequear se o código é válido de acordo á este especificación. Conta cun editor onde escribir ou copiar e pegar o código, aínda que tamén se pode introducir directamente una url para a súa validación. JSONLint analizará este código para atopar e suxerir a corrección dos erros explicando, ademais, os multiples motivos polos que se poden producir. A ferramenta tamén pode ser utilizada como compresor, reducindo desta forma o tamaño dos arquivos. En a súa web inclúe información sobre boas prácticas á hora de traballar co formato JSON, así como información sobre erros comúns.
- Open Refine . Es unha ferramenta pensada para o tratamento e enriquecemento de datos: permite limpalos, transformar o seu formato e amplialos con servizos web e datos externos. Unha dos seus principais características é que utiliza unha linguaxe propia, GREL (Google Refine Expression Languaje), que permite realizar tarefas de depuración avanzadas. Está dispoñible en máis de 15 idiomas. En a súa páxina web ofrece varios vídeos que explican o seu funcionamento. Tamén conta cunha sección de documentación documentación con cursos en liña, guías e preguntas frecuentes. Ademais, os usuarios poden recorrer á ampla comunidade e aos grupos de discusión en Google , Gitter e Stackoverflow , para solucionar dúbidas e compartir experiencias.
- GraphDB OntoRefine . OpenRefine permite engadir diferentes extensións. Unha delas é a que permite transformar datos tabulares a un esquema RDF a través dun punto SPARQL. Os formatos concretos cos que permite traballar son: TSV, CSV, SV, XLS, XLSX, JSON, XML, RDF como XML e Google sheet. A interface visual guía na elección dos predicados, a definición dos mapeos de tipos de datos a RDF e a implementación de transformacións complexas utilizando a linguaxe GREL. Na web inclúe información sobre como utilizar a ferramenta, así como casos de uso.
- JSON Schema Generator . Esta ferramenta permite xerar e validar JSON schemas a partir de arquivos JSON. Estes esquemas permiten describir formatos de datos existentes, proporcionando unha documentación clara e legible tanto para as persoas como para as máquinas. Na web de JSON Schema tes distintos materiais formativos á túa disposición, incluíndo exemplos, e información sobre distintas implementacións . Tamén podes aprender máis sobre JSON schema no seu perfil de Github Github .
- SHACL Playground . Se trata dunha ferramenta en liña de validación para a especificación SHACL, estándar do W3C para validar grafos RDF contra un conxunto de condicións expresadas en SHACL. Do mesmo xeito que nas ferramentas anteriores, só é necesario cortar e pegar o código para que se proceda á súa validación. A ferramenta ofrece algúns exemplos de uso. Ademais, todo o código está dispoñibles en Github Github .
- Swagger . É unha ferramenta para a edición e validación de especificacións que seguen o estándar OpenAPI. Aínda que conta cunha versión de pago con máis funcionalidades, os usuarios poden crear unha conta gratuíta que lles permitirá deseñar a documentación de APIS de forma rápida e estandarizada. Dita versión gratuíta conta con funcionalidades de detección intelixente de erros e autocompletado de sintaxes.
- Sphinx . Este é un software de código aberto para xerar calquera tipo de documentación sobre os datos. Permite crear estruturas xerárquicas de contidos e índices automáticos, así como ampliar as referencias cruzadas a través do marcado semántico e as ligazóns automáticas para funcións, clases, citas, termos de glosario e pezas de información similares. Utiliza a linguaxe de marcado reStructuredText por defecto, e pode ler MyST markdown a través de extensións de terceiros. A través de a súa web podes acceder a unha gran cantidade de tutoriales e guías. Ademais, conta cunha importante comunidade de usuarios.
- ReadTheDocs . Trátase dun software de código aberto para aloxar e documentar a semántica dos datos, similar ao anterior. O seu obxectivo é simplificar a xeración de documentación do software ao automatizar a creación, o control de versións e o aloxamento de documentacións. Conta cun extenso tutorial onde indica os pasos a seguir para crear un proxecto de documentación.
- Title Case . Esta ferramenta permite converter as palabras que integran un texto en maiúsculas e/ou minúsculas. O usuario só ten que introducir un texto e a ferramenta convérteo a distintos formatos: todo maiúsculas, todo minúsculas, Title Case (onde todas as palabras importantes comezan con maiúsculas, mentres que os termos menores, como artigos ou preposicións, van en minúsculas) ou AP-Style Title Case (onde todos os termos comezan con maiúsculas).
Isto é só un exemplo dalgunhas ferramentas en liña que poden axudar a traballar sobres aspectos relacionados coa calidade dos datos. Se queres recomendar algunha outra ferramenta, podes deixar un comentario ou escribir a dinamizacion@datos.gob.es dinamizacion@datos.gob.es .