accesskey_mod_content

Ferramentes gratuïtes per a treballar aspectes relacionats amb la qualitat de les dades

  • Escoltar
  • Copiar
  • Imprimir PDF
  • Compartir

"Notícia disponible únicament amb finalitats històriques i d'hemeroteca. La informació i enllaços mostrats es corresponen amb els quals estaven operatius a la data de la seua publicació. No es garantix que continuen actius actualment".

13 octubre 2022

La “Guia pràctica per a la millora de la qualitat de dades obertes” inclou un llistat amb algunes ferramentes gratuïtes dirigides a aplicar mesures correctores sobre les dades en origen.

Garantir la qualitat de les dades és una tasca primordial per a qualsevol iniciativa open data. Abans de la seua publicació, és necessari validar els conjunts de dades per a comprovar que no contenen errors, duplicitats, etc. D'esta manera, el seu potencial de reutilització creixerà.

La qualitat de les dades està condicionada per molts aspectes. En eixe sentit, en el marc de de la Iniciativa Aporta s'ha elaborat la “Guia “Guia pràctica per a la millora de la qualitat de dades obertes”(Obri en nova finestra) , que proporciona un compendi de directrius per a actuar sobre les diferents característiques que definixen la qualitat i impulsar la seua millora.

La guia inclou un llistat amb algunes ferramentes gratuïtes dirigides a aplicar mesures correctores sobre les dades en origen. En este article et vam mostrar alguns exemples. Es tracta de ferramentes útils per a treballar aspectes concrets relacionats amb la qualitat, per la qual cosa el seu major o menor utilitat dependrà de les dades amb els quals estigues treballant i les seues característiques.

  • UTF-8 tools(Obri en nova finestra) . Es tracta d'una col·lecció de ferramentes online per a realitzar tasques de conversió de formats i codificació de caràcters. Pots seleccionar entre diferents convertidors, però destaquem les ferramentes per a treballar amb codificació UTF8(Obri en nova finestra) . Esta col·lecció compila un ampli catàleg de ferramentes de programació(Obri en nova finestra) , que oferixen funcionalitats de conversió, encriptació, generació de contrasenyes, edició i gestió de textos i imatges, conversió de dates i hores, realització d'operacions matemàtiques, etc. Totes les ferramentes són gratuïtes, sense anuncis intrusius, i fàcils d'usar gràcies a una interfície d'usuari senzilla. A més, cadascuna d'elles inclou exemples d'ús.
  • CSV-LINT(Obri en nova finestra) . Gestionada per l'Open Data Institute, esta ferramenta online permet comprovar si un arxiu CSV és llegible per màquines i verificar que inclou les columnes i els tipus de valors que deuria. També permet afegir esquemes als arxius de dades. Després de l'anàlisi, genera un informe amb els resultats i una marca que pot ser embeguda en el portal de dades des del qual se servix el dataset avaluat. Encara que és molt senzilla d'utilitzar (solament cal carregar l'arxiu que es vol verificar i fer clic en el botó de validar), la web inclou un apartat d'ajuda(Obri en nova finestra) . Treballa bé amb arxius de fins a 100 Mb de grandària. També oferix un senzill manual amb directrius sobre com crear un arxiu en format CSV correctament i evitar els errors més comuns.
  • DenCode(Obri en nova finestra) . Oferix ferramentes de codificació i descodificació online. Entre les funcionalitats que oferix destaca esta ferramenta que ajuda als publicadors en la conversió de dades tipus data al format ISO 8601(Obri en nova finestra) , que és l'estàndard internacional que facilita l'homogenización d'este tipus de dades i la seua interoperabilitat. La ferramenta és molt intuïtiva, ja que solament és necessari escriure, en l'apartat habilitat per a açò, la data i hora a convertir.
  • XML Escape / Unescape(Obri en nova finestra) . Esta és una ferramenta online de codi obert, utilitzada per a el “escapat” o emmascarament de caràcters especials en XML i la realització del procés invers. La ferramenta s'encarrega d'eliminar els rastres d'aquells caràcters que podrien ser interpretats erròniament. Igual que en el cas anterior, la ferramenta és molt intuïtiva. Solament és necessari copiar i pegar el fragment a tractar en l'editor.
  • JSONlint(Obri en nova finestra) . Est és un validador i reformulador para JSON, que permet chequear si el codi és vàlid d'acord a aquesta especificació. Compta amb un editor on escriure o copiar i pegar el codi, encara que també es pot introduir directament una url per a la seua validació. JSONLint analitzarà aquest codi per a trobar i suggerir la correcció dels errors explicant, a més, els multiples motius pels quals es poden produir. La ferramenta també pot ser utilitzada com a compressor, reduint d'esta forma la grandària dels arxius. En el seu web inclou informació sobre bones pràctiques a l'hora de treballar amb el format JSON, així com informació sobre errors comuns.
  • OpenRefine (Obri en nova finestra) . És una ferramenta pensada per al tractament i enriquiment de dades: permet netejar-los, transformar el seu format i ampliar-los amb servicis web i dades externes. Una dels seus principals característiques és que utilitza un llenguatge propi, GREL (Google Refine Expression Languaje), que permet realitzar tasques de depuració avançades. Està disponible en més de 15 idiomes. En la seua pàgina web oferix diversos vídeos(Obri en nova finestra) que expliquen el seu funcionament. També compta amb una secció de documentació(Obri en nova finestra) amb cursos online, guies i preguntes freqüents. A més, els usuaris poden recórrer a la seua àmplia comunitat(Obri en nova finestra) i als grups de discussió en  Google(Obri en nova finestra) , Gitter(Obri en nova finestra) i Stackoverflow(Obri en nova finestra) , per a solucionar dubtes i compartir experiències.
  • GraphDB OntoRefine(Obri en nova finestra)OpenRefine permet afegir diferents extensions. Una d'elles(Obri en nova finestra) és la que permet transformar dades tabulars a un esquema RDF a través d'un punt SPARQL. Els formats concrets amb els quals permet treballar són: TSV, CSV, SV, XLS, XLSX, JSON, XML, RDF com XML i Google sheet. La interfície visual guia en l'elecció dels predicats, la definició dels mapatges de tipus de dades a RDF i la implementació de transformacions complexes utilitzant el llenguatge GREL. En web(Obri en nova finestra) inclou informació sobre com utilitzar la ferramenta, així com casos d'ús.
  • JSON Schema Generator(Obri en nova finestra) . Esta ferramenta permet generar i validar JSON schemas a partir d'arxius JSON. Estos esquemes permeten descriure formats de dades existents, proporcionant una documentació clara i llegible tant per a les persones com per a les màquines. En la web de JSON Schema tens diferents materials formatius(Obri en nova finestra) a la teua disposició, incloent exemples, i informació sobre diferents implementacions(Obri en nova finestra) . També pots aprendre més sobre JSON schema en el seu perfil de Github(Obri en nova finestra) .
  • SHACL Playground(Obri en nova finestra) . Es tracta d'una ferramenta online de validació per a l'especificació SHACL, estàndard del W3C per a validar grafs RDF contra un conjunt de condicions(Obri en nova finestra) expressades en SHACL. Igual que en les ferramentes anteriors, solament és necessari tallar i pegar el codi perquè es procedisca a la seua validació. La ferramenta oferix alguns exemples d'ús. A més, tot el codi està disponibles en Github .
  • Swagger(Obri en nova finestra) . És una ferramenta per a l'edició i validació d'especificacions que seguixen l'estàndard OpenAPI. Encara que compta amb una versió de pagament amb més funcionalitats, els usuaris poden crear un compte gratuït que els permetrà dissenyar la documentació d'APIS de forma ràpida i estandarditzada. Aquesta versió gratuïta compta amb funcionalitats de detecció intel·ligent d'errors i autocompletado de sintaxis.
  • Sphinx(Obri en nova finestra) . Est és un programari de codi obert per a generar qualsevol tipus de documentació sobre les dades. Permet crear estructures jeràrquiques de continguts i índexs automàtics, així com ampliar les referències creuades a través del marcat semàntic i els enllaços automàtics per a funcions, classes, cites, termes de glossari i peces d'informació similars. Utilitza el llenguatge de marcat reStructuredText(Obri en nova finestra) per defecte, i pot llegir MyST markdown(Obri en nova finestra) a través d'extensions de tercers. A través del web(Obri en nova finestra) pots accedir a una gran quantitat de tutorials i guies. A més, compta amb una important comunitat d'usuaris.
  • ReadTheDocs . Es tracta d'un programari de codi obert per a allotjar i documentar la semàntica de les dades, similar a l'anterior. El seu objectiu és simplificar la generació de documentació del programari en automatitzar la creació, el control de versions i l'allotjament de documentacions. Compta amb un extens tutorial(Obri en nova finestra) on indica els passos a seguir per a crear un projecte de documentació.
  • Title Case(Obri en nova finestra) . Esta ferramenta permet convertir les paraules que integren un text en majúscules i/o minúscules. L'usuari solament ha d'introduir un text i la ferramenta ho convertix a diferents formats: tot majúscules, tot minúscules, Title Case (on totes les paraules importants comencen amb majúscules, mentre que els termes menors, com a articles o preposicions, van en minúscules) o AP-Style Title Case (on tots els termes comencen amb majúscules).

Açò és solament un exemple d'algunes ferramentes online que poden ajudar a treballar sobres aspectes relacionats amb la qualitat de les dades. Si vols recomanar alguna altra ferramenta, pots deixar un comentari o escriure a dinamizacion@datos.gob.es .

Font original de la notícia(Obri en nova finestra)

 

  • Informació i dades del sector públic