Garantir la qualitat de les dades és una tasca primordial per a qualsevol iniciativa open data. Abans de la seva publicació, és necessari validar els conjunts de dades per comprovar que no contenen errors, duplicitats, etc. D'aquesta manera, el seu potencial de reutilització creixerà.
La qualitat de les dades està condicionada per molts aspectes. En aquest sentit, en el marc de de la Iniciativa Aporta s'ha elaborat la “Guia “Guia pràctica per a la millora de la qualitat de dades obertes” , que proporciona un compendio de directrius per actuar sobre les diferents característiques que defineixen la qualitat i impulsar la seva millora.
La guia inclou un llistat amb algunes eines gratuïtes dirigides a aplicar mesures correctores sobre les dades en origen. En aquest article et vam mostrar alguns exemples. Es tracta d'eines útils per treballar aspectes concrets relacionats amb la qualitat, per la qual cosa el seu major o menor utilitat dependrà de les dades amb els quals estiguis treballant i les seves característiques.
- UTF-8 tools . Es tracta d'una col·lecció d'eines online per realitzar tasques de conversió de formats i codificació de caràcters. Pots seleccionar entre diferents convertidors, però destaquem les eines per treballar amb codificació UTF8 . Aquesta col·lecció compila un ampli catàleg d'eines eines de programació , que ofereixen funcionalitats de conversió, encriptació, generació de contrasenyes, edició i gestió de textos i imatges, conversió de dates i hores, realització d'operacions matemàtiques, etc. Totes les eines són gratuïtes, sense anuncis intrusius, i fàcils d'usar gràcies a una interfície d'usuari senzilla. A més, cadascuna d'elles inclou exemples d'ús.
- CSV-LINT . Gestionada per l'Open Data Institute, aquesta eina online permet comprovar si un arxiu CSV és llegible per màquines i verificar que inclou les columnes i els tipus de valors que deuria. També permet afegir esquemes als arxius de dades. Després de l'anàlisi, genera un informe amb els resultats i una marca que pot ser embeguda al portal de dades des del qual se serveix el dataset avaluat. Encara que és molt senzilla d'utilitzar (solament cal carregar l'arxiu que es vol verificar i fer clic en el botó de validar), la web inclou un apartat d'ajuda . Treballa bé amb arxius de fins a 100 Mb de grandària. També ofereix un senzill manual amb directrius sobre com crear un arxiu en format CSV correctament i evitar els errors més comuns.
- DenCode . Ofereix eines de codificació i descodificació online. Entre les funcionalitats que ofereix destaca aquesta eina que ajuda als publicadors en la conversió de dades tipus data al format ISO 8601 , que és l'estàndard internacional que facilita l'homogenización d'aquest tipus de dades i la seva interoperabilitat. L'eina és molt intuïtiva, ja que solament és necessari escriure, a l'apartat habilitat per a això, la data i hora a convertir.
- XML Escapi / Unescape . Aquesta és una eina online de codi obert, utilitzada per a el “escapat” o emmascarament de caràcters especials en XML i la realització del procés invers. L'eina s'encarrega d'eliminar els rastres d'aquells caràcters que podrien ser interpretats erròniament. Igual que en el cas anterior, l'eina és molt intuïtiva. Solament és necessari copiar i pegar el fragment a tractar en l'editor.
- JSONlint . Est és un validador i reformulador para JSON, que permet chequear si el codi és vàlid d'acord a aquesta especificació. Compta amb un editor on escriure o copiar i pegar el codi, encara que també es pot introduir directament una url per a la seva validació. JSONLint analitzarà aquest codi per trobar i suggerir la correcció dels errors explicant, a més, els multiples motius pels quals es poden produir. L'eina també pot ser utilitzada com a compressor, reduint d'aquesta forma la grandària dels arxius. Al seu web inclou informació sobre bones pràctiques a l'hora de treballar amb el format JSON, així com informació sobre errors comuns.
- Open . És una eina pensada per al tractament i enriquiment de dades: permet netejar-los, transformar el seu format i ampliar-los amb serveis web i dades externes. Una dels seus principals característiques és que utilitza un llenguatge propi, GREL (Google Refini Expression Languaje), que permet realitzar tasques de depuració avançades. Està disponible en més de 15 idiomes. A la seva pàgina web ofereix diversos vídeos que expliquen el seu funcionament. També compta amb una secció de documentació amb cursos online, guies i preguntes freqüents. A més, els usuaris poden recórrer a la seva àmplia comunitat i als grups de discussió en Google , Gitter i Stackoverflow , per solucionar dubtes i compartir experiències.
- GraphDB OntoRefine . OpenRefine permet afegir diferents extensions. Una d'elles és la que permet transformar dades tabulars a un esquema RDF a través d'un punt SPARQL. Els formats concrets amb els quals permet treballar són: TSV, CSV, SV, XLS, XLSX, JSON, XML, RDF com XML i Google sheet. La interfície visual guia en l'elecció dels predicats, la definició dels mapatges de tipus de dades a RDF i la implementació de transformacions complexes utilitzant el llenguatge GREL. Al web inclou informació sobre com utilitzar l'eina, així com casos d'ús.
- JSON Schema Generator . Aquesta eina permet generar i validar JSON schemas a partir d'arxius JSON. Aquests esquemes permeten descriure formats de dades existents, proporcionant una documentació clara i llegible tant per a les persones com per a les màquines. A la web de JSON Schema tens diferents materials formatius a la teva disposició, incloent exemples, i informació sobre diferents implementacions . També pots aprendre més sobre JSON schema en el seu perfil de Github .
- SHACL Playground . Es tracta d'una eina online de validació per a l'especificació SHACL, estàndard del W3C per validar grafs RDF contra un conjunt de condicions expressades en SHACL. Igual que en les eines anteriors, solament és necessari tallar i pegar el codi perquè es procedeixi a la seva validació. L'eina ofereix alguns exemples d'ús. A més, tot el codi està disponibles en Github .
- Swagger . És una eina per a l'edició i validació d'especificacions que segueixen l'estàndard OpenAPI. Encara que compta amb una versió de pagament amb més funcionalitats, els usuaris poden crear un compte gratuït que els permetrà dissenyar la documentació d'APIS de forma ràpida i estandarditzada. Aquesta versió gratuïta compta amb funcionalitats de detecció intel·ligent d'errors i autocompletado de sintaxis.
- Sphinx . Est és un programari de codi obert per generar qualsevol tipus de documentació sobre les dades. Permet crear estructures jeràrquiques de continguts i índexs automàtics, així com ampliar les referències creuades a través del marcat semàntic i els enllaços automàtics per a funcions, classes, cites, termes de glossari i peces d'informació similars. Utilitza el llenguatge de marcat reStructuredText per defecte, i pot llegir MyST markdown a través d'extensions de tercers. A través del web pots accedir a una gran quantitat de tutorials i guies. A més, compta amb una important comunitat d'usuaris.
- ReadTheDocs . Es tracta d'un programari de codi obert per allotjar i documentar la semàntica de les dades, similar a l'anterior. El seu objectiu és simplificar la generació de documentació del programari en automatitzar la creació, el control de versions i l'allotjament de documentacions. Compta amb un extens tutorial on indica els passos a seguir per crear un projecte de documentació.
- Title Casi . Aquesta eina permet convertir les paraules que integren un text en majúscules i/o minúscules. L'usuari solament ha d'introduir un text i l'eina ho converteix a diferents formats: tot majúscules, tot minúscules, Title Casi (on totes les paraules importants comencen amb majúscules, mentre que els termes menors, com a articles o preposicions, van en minúscules) o AP-Style Title Casi (on tots els termes comencen amb majúscules).
Això és solament un exemple d'algunes eines online que poden ajudar a treballar sobres aspectes relacionats amb la qualitat de les dades. Si vols recomanar alguna altra eina, pots deixar un comentari o escriure a dinamizacion@datos.gob.es .