Garantir la qualitat de les dades és una tasca primordial per a qualsevol iniciativa open data. Abans de la seua publicació, és necessari validar els conjunts de dades per a comprovar que no contenen errors, duplicitats, etc. D'esta manera, el seu potencial de reutilització creixerà.
La qualitat de les dades està condicionada per molts aspectes. En eixe sentit, en el marc de de la Iniciativa Aporta s'ha elaborat la “Guia “Guia pràctica per a la millora de la qualitat de dades obertes” , que proporciona un compendi de directrius per a actuar sobre les diferents característiques que definixen la qualitat i impulsar la seua millora.
La guia inclou un llistat amb algunes ferramentes gratuïtes dirigides a aplicar mesures correctores sobre les dades en origen. En este article et vam mostrar alguns exemples. Se tracta de ferramentes útils per a treballar aspectes concrets relacionats amb la qualitat, per la qual cosa el seu major o menor utilitat dependrà de les dades amb els quals estigues treballant i les seues característiques.
- UTF-8 tools . Se tracta d'una col·lecció de ferramentes online per a realitzar tasques de conversió de formats i codificació de caràcters. Pots seleccionar entre diferents convertidors, però destaquem les ferramentes per a treballar amb codificació UTF8 . Esta col·lecció compila un ampli catàleg de ferramentes de programació , que oferixen funcionalitats de conversió, encriptació, generació de contrasenyes, edició i gestió de textos i imatges, conversió de dates i hores, realització d'operacions matemàtiques, etc. Totes les ferramentes són gratuïtes, sense anuncis intrusius, i fàcils d'usar gràcies a una interfície d'usuari senzilla. A més, cadascuna d'elles inclou exemples d'ús.
- CSV-LINT . Gestionada per l'Open Data Institute, esta ferramenta online permet comprovar si un arxiu CSV és llegible per màquines i verificar que inclou les columnes i els tipus de valors que deuria. També permet afegir esquemes als arxius de dades. Després de l'anàlisi, genera un informe amb els resultats i una marca que pot ser embeguda en el portal de dades des del qual se servix el dataset avaluat. Aunque és molt senzilla d'utilitzar (solament cal carregar l'arxiu que es vol verificar i fer clic en el botó de validar), la web inclou un apartat d'ajuda . Treballa bé amb arxius de fins a 100 Mb de grandària. També oferix un senzill manual amb directrius sobre com crear un arxiu en format CSV correctament i evitar els errors més comuns.
- DenCode . Oferix ferramentes de codificació i descodificació online. Entre les funcionalitats que oferix destaca esta ferramenta que ajuda als publicadors en la conversió de dades tipus data al format ISO 8601 , que és l'estàndard internacional que facilita l'homogenización d'este tipus de dades i la seua interoperabilitat. La ferramenta és molt intuïtiva, ja que solament és necessari escriure, en l'apartat habilitat per a açò, la data i hora a convertir.
- XML Escape / Unescape . Esta és una ferramenta online de codi obert, utilitzada per a el “escapat” o emmascarament de caràcters especials en XML i la realització del procés invers. La ferramenta s'encarrega d'eliminar els rastres d'aquells caràcters que podrien ser interpretats erròniament. Igual que en el cas anterior, la ferramenta és molt intuïtiva. Solament és necessari copiar i pegar el fragment a tractar en l'editor.
- JSONlint . Est és un validador i reformulador para JSON, que permet chequear si el codi és vàlid d'acord a aquesta especificació. Compta amb un editor on escriure o copiar i pegar el codi, encara que també es pot introduir directament una url per a la seua validació. JSONLint analitzarà aquest codi per a trobar i suggerir la correcció dels errors explicant, a més, els multiples motius pels quals es poden produir. La ferramenta també pot ser utilitzada com a compressor, reduint d'esta forma la grandària dels arxius. En el seu web inclou informació sobre bones pràctiques a l'hora de treballar amb el format JSON, així com informació sobre errors comuns.
- Open Refine . Es una ferramenta pensada per al tractament i enriquiment de dades: permet netejar-los, transformar el seu format i ampliar-los amb servicis web i dades externes. Una dels seus principals característiques és que utilitza un llenguatge propi, GREL (Google Refine Expression Languaje), que permet realitzar tasques de depuració avançades. Està disponible en més de 15 idiomes. En la seua pàgina web oferix diversos vídeos que expliquen el seu funcionament. També compta amb una secció de documentació amb cursos online, guies i preguntes freqüents. A més, els usuaris poden recórrer a la seua àmplia comunitat i als grups de discussió en Google , Gitter i Stackoverflow , per a solucionar dubtes i compartir experiències.
- GraphDB OntoRefine . OpenRefine permet afegir diferents extensions. Una d'elles és la que permet transformar dades tabulars a un esquema RDF a través d'un punt SPARQL. Els formats concrets amb els quals permet treballar són: TSV, CSV, SV, XLS, XLSX, JSON, XML, RDF com XML i Google sheet. La interfície visual guia en l'elecció dels predicats, la definició dels mapatges de tipus de dades a RDF i la implementació de transformacions complexes utilitzant el llenguatge GREL. En web inclou informació sobre com utilitzar la ferramenta, així com casos d'ús.
- JSON Schema Generator . Esta ferramenta permet generar i validar JSON schemas a partir d'arxius JSON. Estos esquemes permeten descriure formats de dades existents, proporcionant una documentació clara i llegible tant per a les persones com per a les màquines. En la web de JSON Schema tens diferents materials formatius a la teua disposició, incloent exemples, i informació sobre diferents implementacions . També pots aprendre més sobre JSON schema en el seu perfil de Github .
- SHACL Playground . Se tracta d'una ferramenta online de validació per a l'especificació SHACL, estàndard del W3C per a validar grafs RDF contra un conjunt de condicions expressades en SHACL. Igual que en les ferramentes anteriors, solament és necessari tallar i pegar el codi perquè es procedisca a la seua validació. La ferramenta oferix alguns exemples d'ús. A més, tot el codi està disponibles en Github .
- Swagger . És una ferramenta per a l'edició i validació d'especificacions que seguixen l'estàndard OpenAPI. Encara que compta amb una versió de pagament amb més funcionalitats, els usuaris poden crear un compte gratuït que els permetrà dissenyar la documentació d'APIS de forma ràpida i estandarditzada. Aquesta versió gratuïta compta amb funcionalitats de detecció intel·ligent d'errors i autocompletado de sintaxis.
- Sphinx . Est és un programari de codi obert per a generar qualsevol tipus de documentació sobre les dades. Permet crear estructures jeràrquiques de continguts i índexs automàtics, així com ampliar les referències creuades a través del marcat semàntic i els enllaços automàtics per a funcions, classes, cites, termes de glossari i peces d'informació similars. Utilitza el llenguatge de marcat reStructuredText per defecte, i pot llegir MyST markdown a través d'extensions de tercers. A través de el seu web pots accedir a una gran quantitat de tutorials i guies. A més, compta amb una important comunitat d'usuaris.
- ReadTheDocs . Es tracta d'un programari de codi obert per a allotjar i documentar la semàntica de les dades, similar a l'anterior. El seu objectiu és simplificar la generació de documentació del programari en automatitzar la creació, el control de versions i l'allotjament de documentacions. Compta amb un extens tutorial on indica els passos a seguir per a crear un projecte de documentació.
- Title Case . Esta ferramenta permet convertir les paraules que integren un text en majúscules i/o minúscules. L'usuari solament ha d'introduir un text i la ferramenta ho convertix a diferents formats: tot majúscules, tot minúscules, Title Case (on totes les paraules importants comencen amb majúscules, mentre que els termes menors, com a articles o preposicions, van en minúscules) o AP-Style Title Case (on tots els termes comencen amb majúscules).
Açò és solament un exemple d'algunes ferramentes online que poden ajudar a treballar sobres aspectes relacionats amb la qualitat de les dades. Si vols recomanar alguna altra ferramenta, pots deixar un comentari o escriure a dinamizacion@datos.gob.es .