accesskey_mod_content

Especificació UNIX 0081 – Guia d'avaluació de la qualitat de dades

  • Escoltar
  • Imprimir PDF
  • Compartir

29 setembre 2023

L'especificació UNIX 0081 definix el procés d'avaluació de qualitat de la dada que contribuïx a la seua definició, caracterització, mesurament i millora.

Hui en dia, la qualitat de les dades exercix un paper fonamental en el món actual, on la informació és un actiu valuós. Assegurar que les dades siguen precises, complets i confiables s'ha tornat essencial per a l'èxit de les organitzacions i garantix l'èxit de la presa de decisions informades.

La qualitat de les dades té un impacte directe no solament en l'intercanvi i ús a nivell intern de cada organització, sinó també en la compartició de dades entre diferents entitats, sent una variable clau en l'èxit del nou paradigma dels espais de dades. Quan les dades són d'alta qualitat, es crea un entorn propici per a l'intercanvi d'informació precisa i consistent, la qual cosa permet a les organitzacions col·laborar de manera més efectiva, fomentant la innovació i el desenvolupament conjunt de solucions.

Una bona qualitat de dades facilita la reutilització de la informació en diferents contextos, generant valor més enllà del sistema que els crea. Les dades d'alta qualitat són més fiables i accessibles, i poden ser utilitzats per múltiples sistemes i aplicacions, la qual cosa augmenta el seu valor i utilitat. En reduir considerablement la necessitat de realitzar correccions i ajustos constants, s'estalvia temps i recursos, permetent una major eficiència en la implementació de projectes i la creació de nous productes i servicis.

La qualitat de les dades també juga un paper fonamental en l'avanç de la intel·ligència artificial i l'aprenentatge automàtic. Els models de IA es basen en grans volums de dades per a obtindre resultats precisos i confiables. Si les dades utilitzades estan contaminats o són de baixa qualitat, els resultats dels algoritmes de IA seran poc confiables o fins i tot erronis. Per tant, garantir la qualitat de les dades és essencial per a aconseguir el màxim rendiment de les aplicacions de IA, reduir o eliminar biaixos i aprofitar el seu potencial al màxim.

Amb l'objectiu d'oferir un procés basat en estàndards internacionals que puga ajudar a les organitzacions a utilitzar un model de qualitat i a definir característiques i mètriques de qualitat adequades, l'Oficina de la Dada ha patrocinat, promogut i participat en la generació de l'especificació UNIX 0081 Avaluació de la qualitat de la dada que complementa l'especificació ja existent UNIX 0079 Gestió de la qualitat de la dada, centrada més en la definició de processos de gestió de la qualitat de la dada que en la qualitat de la dada com a tal.

Especificació UNIX – Guia d'Avaluació de la qualitat de la dada

L'especificació UNIX 0081, família d'estàndards internacionals ISO/IEC 25000, permet conéixer i avaluar la qualitat de les dades de tota organització, permetent establir un pla futur per a la seua millora, i podent-se fins i tot arribar a certificar la seua qualitat formalment. Els destinataris d'està especificació, aplicable a qualsevol tipus d'organització independentment de la seua grandària o dedicació, seran els responsables de qualitat de dades, així com els consultors i auditors que necessiten dur a terme una avaluació dels conjunts de dades dins de les seues funcions.

L'especificació primer exposa el model de qualitat de la dada, on es detallen les característiques de qualitat que poden tindre les dades, així com algunes mètriques aplicables, per a una vegada definit este marc de treball, passar a definir el procés que s'ha de seguir per a avaluar la qualitat d'un conjunt de dades. Finalment, l'especificació acaba detallant com interpretar els resultats obtinguts de l'avaluació mostrant algun exemple concret d'aplicació.

Model de qualitat de la dada

La guia proposa una sèrie de característiques de qualitat seguint les presents en la norma ISO/IEC 25012, classificant-les entre aquelles inherents a la dada, dependents del sistema on s'allotja la dada o dependents de les dos circumstàncies. Es justifica l'elecció d'estes característiques atés que abasten les presents en altres marcs de referència tals com a DAMA, FAIR, EHDS, IA Act i RGPD.

Sobre la base de les característiques definides, la guia es recolza en la norma ISO/IEC 25024 per a proposar un conjunt de mètriques que servisquen per a mesurar les propietats de les característiques, entenent estes propietats com “subcaracteristicas” de les característiques.

Així, a manera d'exemple, seguint l'esquema de dependències, per a la característica concreta de “consistència del format de dades” es mostren les seues propietats i mètriques, detallant-se una d'elles.

Procés per a avaluar la qualitat d'un conjunt de dades

Per a realitzar l'avaluació en si de la qualitat de les dades, la guia proposa seguir la norma ISO/IEC 25040, que establix un model d'avaluació que té en compte tant els requisits i restriccions definides per l'organització, com els recursos necessaris tant materials com a personals. Amb estos requisititos, s'establix un pla d'avaluació a través d'unes mètriques i criteris de decisió concrets en funció dels requisits de negoci, que permeta realitzar el correcte mesurament de les propietats i característiques i interpretar els seus resultats.

A continuació, es mostra un esquema amb els passos a realitzar en el procés, així com les seues principals activitats:

Resultats de l'avaluació de qualitat

El resultat de l'avaluació dependrà directament dels requisits marcats per l'organització i els criteris de compliment. Les propietats de les característiques solen avaluar-se de 0 a 100 a partir dels valors obtinguts en les mètriques definides per a cadascun d'ells, i les característiques al seu torn s'avaluen per agregació de les anteriors també de 0 a 100 o mitjançant la conversió a un valor discret d'1 a 5 (1 qualitat deficient, 5 qualitat excel·lent) en funció de les regles de càlcul i ponderació que s'hagen establit. Igual que del mesurament de les propietats s'obté la de les seues característiques, el mateix passa amb estes característiques, que mitjançant la seua suma ponderada sobre la base de les regles que s'hagen definit (podent establir més pes a unes característiques que a altres), es puga obtindre un resultat final de la qualitat de les dades. Per exemple, si volem calcular la qualitat de les dades sobre la base d'una suma ponderada de les seues característiques intrínseques, on pel tipus de negoci, interesse donar-li major pes a l'exactitud, aleshores es podria definir una fórmula com la següent:

Qualitat de dades = 0.4*Exactitud + 0.15*Completesa + 0.15*Consistència + 0.15*Credibilitat + 0.15*Actualitat

Suposem que de forma similar s'han calculat cadascuna de les característiques de la qualitat en base la suma ponderada de les seues propietats, resultant els següents valors: Exactitud=50%, Completesa=45%, Consistència=35%, Credibilitat=100% i Actualitat=50%. D'esta forma la qualitat de dades resultaria:

Qualitat de dades = 0.4*50% + 0.15*45% + 0.15*35% + 0.15*100% + 0.15*50% = 54.5%

Si suposem que s'han establit en l'organització uns requisits com els quals es mostren en la següent taula:

Es podria concloure que l'organització en general compta amb una qualificació de la dada de “3= Qualitat Bona”.

En resum, l'avaluació i millora de la qualitat del conjunt de dades podrà ser tot l'exhaustiva i rigorosa que siga necessària, i s'ha de dur a terme de manera iterativa i constant de manera que les dades vagen incrementant la seua qualitat de forma contínua, de manera que s'assegure una qualitat de la dada mínima o fins i tot es puga certificar. Esta qualitat mínima de la dada pot referir-se a millorar els conjunts de dades internes a una organització, és a dir, els que l'organització gestiona i explota per al funcionament dels seus processos de negoci; o bé pot utilitzar-se per a afavorir la compartició de conjunts de dades mitjançant el nou paradigma dels espais de dades generant noves oportunitats de mercat. En este últim cas, quan una organització vullga integrar les seues dades en un espai de dades per a la seua futura intermediació, és convenient realitzar una avaluació de qualitat, etiquetant el conjunt de dades adequadament en referència a la seua qualitat (potser mitjançant la seua metadatado). Una dada de qualitat contrastada té una utilitat i un valor diferent d'aquell que manca d'ella, posicionant al primer en un lloc preferencial dins del mercat competitiu.

El contingut d'esta guia, així com de la resta d'especificacions UNIX esmentades, pot descarregar-se de forma lliure des del portal d'AENOR a través dels enllaços que figuren a continuació:

ESPECIFICACION UNIX 0081:2023 | Normes AENOR(Obri en nova finestra)

https://tienda.aenor.com/norma-une-especificacion-une-0080-2023-n0071383(Obri en nova finestra)

https://tienda.aenor.com/norma-une-especificacion-une-0079-2023-n0071118(Obri en nova finestra)

https://tienda.aenor.com/norma-une-especificacion-une-0078-2023-n0071117(Obri en nova finestra)

https://tienda.aenor.com/norma-une-especificacion-une-0077-2023-n0071116(Obri en nova finestra)

La descàrrega és gratuïta. El descompte s'aplica al final bonificant al 100% el preu que es mostra al final del procés de compra.

Font original de la notícia(Obri en nova finestra)

  • Informació i dades del sector públic
  • Govern obert, Informes i Estudis