accesskey_mod_content

Eines gratuïtes per treballar aspectes relacionats amb la qualitat de les dades

  • Escoltar
  • Copiar
  • Imprimir PDF
  • Compartir

"Notícia disponible únicament amb finalitats històriques i d'hemeroteca. La informació i enllaços mostrats es corresponen amb els quals estaven operatius a la data de la seva publicació. No es garanteix que continuïn actius actualment".

13 octubre 2022

La “Guia pràctica per a la millora de la qualitat de dades obertes” inclou un llistat amb algunes eines gratuïtes dirigides a aplicar mesures correctores sobre les dades en origen.

Garantir la qualitat de les dades és una tasca primordial per a qualsevol iniciativa open data. Abans de la seva publicació, és necessari validar els conjunts de dades per comprovar que no contenen errors, duplicitats, etc. D'aquesta manera, el seu potencial de reutilització creixerà.

La qualitat de les dades està condicionada per molts aspectes. En aquest sentit, en el marc de de la Iniciativa Aporta s'ha elaborat la “Guia “Guia pràctica per a la millora de la qualitat de dades obertes”(Obre en nova finestra) , que proporciona un compendio de directrius per actuar sobre les diferents característiques que defineixen la qualitat i impulsar la seva millora.

La guia inclou un llistat amb algunes eines gratuïtes dirigides a aplicar mesures correctores sobre les dades en origen. En aquest article et vam mostrar alguns exemples. Es tracta d'eines útils per treballar aspectes concrets relacionats amb la qualitat, per la qual cosa el seu major o menor utilitat dependrà de les dades amb els quals estiguis treballant i les seves característiques.

  • UTF-8 tools(Obre en nova finestra) . Es tracta d'una col·lecció d'eines online per realitzar tasques de conversió de formats i codificació de caràcters. Pots seleccionar entre diferents convertidors, però destaquem les eines per treballar amb codificació UTF8(Obre en nova finestra) . Aquesta col·lecció compila un ampli catàleg d'eines eines de programació(Obre en nova finestra) , que ofereixen funcionalitats de conversió, encriptació, generació de contrasenyes, edició i gestió de textos i imatges, conversió de dates i hores, realització d'operacions matemàtiques, etc. Totes les eines són gratuïtes, sense anuncis intrusius, i fàcils d'usar gràcies a una interfície d'usuari senzilla. A més, cadascuna d'elles inclou exemples d'ús.
  • CSV-LINT(Obre en nova finestra) . Gestionada per l'Open Data Institute, aquesta eina online permet comprovar si un arxiu CSV és llegible per màquines i verificar que inclou les columnes i els tipus de valors que deuria. També permet afegir esquemes als arxius de dades. Després de l'anàlisi, genera un informe amb els resultats i una marca que pot ser embeguda al portal de dades des del qual se serveix el dataset avaluat. Encara que és molt senzilla d'utilitzar (solament cal carregar l'arxiu que es vol verificar i fer clic en el botó de validar), la web inclou un apartat d'ajuda(Obre en nova finestra) . Treballa bé amb arxius de fins a 100 Mb de grandària. També ofereix un senzill manual amb directrius sobre com crear un arxiu en format CSV correctament i evitar els errors més comuns.
  • DenCode(Obre en nova finestra) . Ofereix eines de codificació i descodificació online. Entre les funcionalitats que ofereix destaca aquesta eina que ajuda als publicadors en la conversió de dades tipus data al format ISO 8601(Obre en nova finestra) , que és l'estàndard internacional que facilita l'homogenización d'aquest tipus de dades i la seva interoperabilitat. L'eina és molt intuïtiva, ja que solament és necessari escriure, a l'apartat habilitat per a això, la data i hora a convertir.
  • XML Escapi / Unescape(Obre en nova finestra) . Aquesta és una eina online de codi obert, utilitzada per a el “escapat” o emmascarament de caràcters especials en XML i la realització del procés invers. L'eina s'encarrega d'eliminar els rastres d'aquells caràcters que podrien ser interpretats erròniament. Igual que en el cas anterior, l'eina és molt intuïtiva. Solament és necessari copiar i pegar el fragment a tractar en l'editor.
  • JSONlint(Obre en nova finestra) . Est és un validador i reformulador para JSON, que permet chequear si el codi és vàlid d'acord a aquesta especificació. Compta amb un editor on escriure o copiar i pegar el codi, encara que també es pot introduir directament una url per a la seva validació. JSONLint analitzarà aquest codi per trobar i suggerir la correcció dels errors explicant, a més, els multiples motius pels quals es poden produir. L'eina també pot ser utilitzada com a compressor, reduint d'aquesta forma la grandària dels arxius. Al seu web inclou informació sobre bones pràctiques a l'hora de treballar amb el format JSON, així com informació sobre errors comuns.
  • OpenRefini (Obre en nova finestra) . És una eina pensada per al tractament i enriquiment de dades: permet netejar-los, transformar el seu format i ampliar-los amb serveis web i dades externes. Una dels seus principals característiques és que utilitza un llenguatge propi, GREL (Google Refini Expression Languaje), que permet realitzar tasques de depuració avançades. Està disponible en més de 15 idiomes. A la seva pàgina web ofereix diversos vídeos(Obre en nova finestra) que expliquen el seu funcionament. També compta amb una secció de documentació(Obre en nova finestra) amb cursos online, guies i preguntes freqüents. A més, els usuaris poden recórrer a la seva àmplia comunitat(Obre en nova finestra) i als grups de discussió en  Google(Obre en nova finestra) , Gitter(Obre en nova finestra) i Stackoverflow(Obre en nova finestra) , per solucionar dubtes i compartir experiències.
  • GraphDB OntoRefine(Obre en nova finestra)OpenRefine permet afegir diferents extensions. Una d'elles(Obre en nova finestra) és la que permet transformar dades tabulars a un esquema RDF a través d'un punt SPARQL. Els formats concrets amb els quals permet treballar són: TSV, CSV, SV, XLS, XLSX, JSON, XML, RDF com XML i Google sheet. La interfície visual guia en l'elecció dels predicats, la definició dels mapatges de tipus de dades a RDF i la implementació de transformacions complexes utilitzant el llenguatge GREL. Al web(Obre en nova finestra) inclou informació sobre com utilitzar l'eina, així com casos d'ús.
  • JSON Schema Generator(Obre en nova finestra) . Aquesta eina permet generar i validar JSON schemas a partir d'arxius JSON. Aquests esquemes permeten descriure formats de dades existents, proporcionant una documentació clara i llegible tant per a les persones com per a les màquines. A la web de JSON Schema tens diferents materials formatius(Obre en nova finestra) a la teva disposició, incloent exemples, i informació sobre diferents implementacions(Obre en nova finestra) . També pots aprendre més sobre JSON schema en el seu perfil de Github(Obre en nova finestra) .
  • SHACL Playground(Obre en nova finestra) . Es tracta d'una eina online de validació per a l'especificació SHACL, estàndard del W3C per validar grafs RDF contra un conjunt de condicions(Obre en nova finestra) expressades en SHACL. Igual que en les eines anteriors, solament és necessari tallar i pegar el codi perquè es procedeixi a la seva validació. L'eina ofereix alguns exemples d'ús. A més, tot el codi està disponibles en Github .
  • Swagger(Obre en nova finestra) . És una eina per a l'edició i validació d'especificacions que segueixen l'estàndard OpenAPI. Encara que compta amb una versió de pagament amb més funcionalitats, els usuaris poden crear un compte gratuït que els permetrà dissenyar la documentació d'APIS de forma ràpida i estandarditzada. Aquesta versió gratuïta compta amb funcionalitats de detecció intel·ligent d'errors i autocompletado de sintaxis.
  • Sphinx(Obre en nova finestra) . Est és un programari de codi obert per generar qualsevol tipus de documentació sobre les dades. Permet crear estructures jeràrquiques de continguts i índexs automàtics, així com ampliar les referències creuades a través del marcat semàntic i els enllaços automàtics per a funcions, classes, cites, termes de glossari i peces d'informació similars. Utilitza el llenguatge de marcat reStructuredText(Obre en nova finestra) per defecte, i pot llegir MyST markdown(Obre en nova finestra) a través d'extensions de tercers. A través del web(Obre en nova finestra) pots accedir a una gran quantitat de tutorials i guies. A més, compta amb una important comunitat d'usuaris.
  • ReadTheDocs . Es tracta d'un programari de codi obert per allotjar i documentar la semàntica de les dades, similar a l'anterior. El seu objectiu és simplificar la generació de documentació del programari en automatitzar la creació, el control de versions i l'allotjament de documentacions. Compta amb un extens tutorial(Obre en nova finestra) on indica els passos a seguir per crear un projecte de documentació.
  • Title Casi(Obre en nova finestra) . Aquesta eina permet convertir les paraules que integren un text en majúscules i/o minúscules. L'usuari solament ha d'introduir un text i l'eina ho converteix a diferents formats: tot majúscules, tot minúscules, Title Casi (on totes les paraules importants comencen amb majúscules, mentre que els termes menors, com a articles o preposicions, van en minúscules) o AP-Style Title Casi (on tots els termes comencen amb majúscules).

Això és solament un exemple d'algunes eines online que poden ajudar a treballar sobres aspectes relacionats amb la qualitat de les dades. Si vols recomanar alguna altra eina, pots deixar un comentari o escriure a dinamizacion@datos.gob.es .

Font original de la notícia(Obre en nova finestra)

 

  • Informació i dades del sector públic