accesskey_mod_content

Datos oberts i IA: una relació simbiòtica per al progrés

  • Escoltar
  • Copiar
  • Imprimir PDF
  • Compartir

"Notícia disponible únicament amb finalitats històriques i d'hemeroteca. La informació i enllaços mostrats es corresponen amb els quals estaven operatius a la data de la seva publicació. No es garanteix que continuïn actius actualment".

13 juny 2023

Atès que els sistemes d'Intel·ligència Artificial (IA) són models matemàtics complexos entrenats en dades, és possible combinar tots dos aspectes per alliberar el potencial d'aquest poderós duo

Aquests sistemes estan dissenyats per processar i analitzar grans volums de dades amb la finalitat de reconèixer patrons i fer prediccions. Els sistemes de IA són cada vegada més precisos i sofisticats hagut de, en part, als avanços en les tècniques i algorismes utilitzats per la IA, l'accés a una major potència de processament informàtic i la major disponibilitat de dades.

Amb aquests desenvolupaments tecnològics, l'ús de la IA és cada vegada més comuna en tots els sectors d'Europa. La figura 1 mostra com en 2021 el percentatge d'empreses que utilitzen tecnologies de IA variava entre els països d'Europa. Per fomentar l'ús de la IA en tota Europa, la UE va engegar la  Estratègia Europea de IA(Obre en nova finestra)  amb l'objectiu d'impulsar la recerca i la capacitat industrial, garantint al mateix temps la seguretat i els drets fonamentals.

Empreses de la UE que utilitzen tecnologia de IA, 2021

Les dades són un component crític dels sistemes de IA. Aquesta història destaca la connexió entre les dades obertes i el rendiment dels sistemes de IA. Amb casos d'ús de la vida real, aquesta història mostra com aquests dos temes estan interrelacionats i depenen l'u de l'altre per fomentar la  transició digital d'Europa(Obre en nova finestra) .

Com les dades obertes i la IA estan estretament relacionats

Les dades obertes i la IA tenen el potencial de recolzar i millorar les capacitats de cadascun. D'una banda, les dades obertes poden millorar els sistemes de IA. En general, exposar els sistemes de IA a un major volum i varietat de dades augmenta la possibilitat que el sistema retorni prediccions precises i útils. Com a tal, les dades obertes poden ser un subministrament de grans quantitats d'informació diversa per als sistemes de IA. D'aquesta manera, la disponibilitat de dades obertes contribueix a un millor rendiment de la IA. Por ejemplo, un sistema de IA entrenat per predir els  patrons de consum dels(Obre en nova finestra)  consumidors a Europa probablement funcionarà millor si inclou una selecció representativa de transaccions de béns i serveis per part de consumidors en diferents països, municipis i grups d'ingressos.

D'altra banda La IA pot desbloquejar valor addicional de les dades obertes. La IA pot analitzar grans volums de dades i identificar tendències i patrons que podrien no haver estat revelats a través d'altres tècniques d'anàlisis. Les dades obertes contenen informació rica i patrons complexos dels quals es poden derivar coneixements. Com una poderosa eina d'anàlisi, la IA pot aprofitar el valor de les dades obertes. Per exemple, un sistema de IA entrenat per predir  incendis forestals(Obre en nova finestra)  pot cercar patrons a través de dades meteorològiques, imatges satelitales i tendències històriques que les comparacions estadístiques estàndard no poden identificar.

La IA pot beneficiar-se de l'amplitud de les dades obertes

Les dades obertes abasten una àmplia gamma d'àrees temàtiques. Aquesta varietat de dades amplia els possibles casos d'ús pels quals es poden desenvolupar sistemes de IA, la qual cosa fa possibles nous productes i serveis impulsats per IA. Aquests casos d'ús solament es poden desenvolupar si les dades rellevants estan disponibles i són de fàcil accés. La lliure disponibilitat de diversos conjunts de dades, com a través de dades obertes, és essencial per impulsar la innovació i brindar noves oportunitats econòmiques. L'esperança és que els sistemes innovadors de IA puguin usar-se per ajudar a resoldre els desafiaments que enfronta la societat, creant valor socioeconòmic.

El divers conjunt d'informació que les dades obertes poden proporcionar als sistemes de IA especialment pot permetre aplicacions multidisciplinàries que combinen dades sobre diversos temes per obtenir nous coneixements. Per exemple, un conjunt de dades meteorològiques es pot utilitzar per fer prediccions meteorològiques. Però combinat amb dades sobre genètica de llavors, característiques del sòl i condicions ambientals, es pot entrenar un sistema de IA per tenir un bon coneixement contextual de les  variables que afecten la producció agrícola(Obre en nova finestra) . Aquest sistema podria utilitzar-se per ajudar a la presa de decisions per augmentar el rendiment dels cultius, prevenir malalties de les plantes o optimitzar altres decisions comercials.

La IA pot beneficiar-se de la profunditat de les dades obertes

Si bé l'amplitud de les àrees temàtiques cobertes per les dades obertes permet amplis casos d'ús per als sistemes de IA, tenir una gran quantitat de dades obertes disponibles en un cas d'ús específic permet que els sistemes de IA funcionin millor. Prenguem, per exemple, un sistema de IA desenvolupat per reconèixer edificis residencials. Si la IA s'entrena solament amb imatges capturades en l'estiu de mansions en el camp, el model tindrà un mal acompliment quan se li demani que reconegui un apartament de la ciutat com un edifici residencial. Per tant, el model ha de ser entrenat en un conjunt integral d'exemples per comprendre les variacions del que es considera un edifici residencial (en aquest cas, factors com l'estil arquitectònic, la grandària de l'edifici i l'entorn circumdant poden ser rellevants).

Les dades que representen exhaustivament el tema exposen els sistemes de IA a una gamma més àmplia d'escenaris i variacions. En última instància, això permet que els models de IA funcionin millor en situacions del món real i generalitzin el seu coneixement quan s'enfronten a noves dades (com una imatge d'una casa individual que el model no ha vist abans). Els sistemes de IA entrenats amb dades no representatives o incomplets corren el risc de fer prediccions esbiaixades i ser poc segurs/segurs.

La IA d'alta qualitat es basa en dades obertes d'alta qualitat

La integritat de les dades obertes contribueix a la capacitat dels sistemes de IA per generalitzar a exemples no vists una vegada que s'implementen en l'operació del "món real", però també contribueix al concepte de qualitat de les dades. Algunes característiques de la qualitat de les dades inclouen la integritat, rellevància, consistència, uniformitat i confiabilitat de les dades per al cas d'ús que s'està desenvolupant. La Figura 2 mostra la relació entre sis dimensions de qualitat de dades i el rendiment de tres tipus d'algorismes de IA d'un  article  de investigadors de la Universitat de Potsdam. Per exemple, la figura mostra que la integritat (sense dades faltantes) i la precisió de les característiques (sense dades errònies) tenen un fort efecte en el rendiment dels tres algorismes de IA. D'altra banda, els algorismes d'agrupació es veuen menys afectats per la precisió de l'objectiu (sense etiquetatge incorrecte de les dades), la unicitat (sense dades redundants o duplicats) i l'equilibri de classes (tenir grups igualment representats).

Efectes de les dimensions de qualitat de dades en l'aprenentatge automàtic

Diverses iniciatives de dades obertes en el camp científic demostren l'impacte dels repositoris oberts amb catàlegs estructurats de dades i formats de dades estandarditzades. Per exemple, el govern alemany finança una infraestructura nacional de dades de recerca que inclou un consorci (anomenat  NFDI4Chem(Obre en nova finestra) ) que fa que les dades químiques es puguin trobar, accessibles, interoperables i reutilitzables mitjançant l'establiment de les millors pràctiques, incloses les estructures químiques llegibles per màquina. Aquestes bases de dades solen incloure un procés de revisió de qualitat o un mètode de curació per garantir la qualitat i confiabilitat de les dades.

Una major demanda de dades obertes per a nous productes i serveis podria encoratjar la publicació de més conjunts de dades i millores en la qualitat de les dades. Per tant, és prometedor veure en el  Informe de Maduresa de Dades Obertes 2022(Obre en nova finestra)  com els països europeus estan treballant per millorar la qualitat de les dades publicades als seus portals nacionals de dades obertes.

Les dades obertes permeten aplicacions de IA al món real

Hi ha diversos exemples de dades obertes que s'utilitzen en sistemes de IA per a aplicacions noves a Europa.

Com a primer exemple, l'aplicació croata  CROZ RenEUwable(Obre en nova finestra)  combina dades climàtiques i energètics en un model d'aprenentatge automàtic que proporciona als ciutadans recomanacions personals per adoptar decisions més sostenibles sobre energia. L'aplicació impulsada per IA, que va guanyar el  EU Datathon 2022(Obre en nova finestra)  en la categoria de 'Un Pacte Verd Europeu', es basa en dades obertes seleccionades per l'equip en funció de la qualitat, integritat, consistència, puntualitat i usabilitat.

Un altre exemple és un projecte per a la  Administració de Cadastre i Topografia(Obre en nova finestra)  de Luxemburg que il·lustra l'ús de la IA per analitzar imatges aèries guardades en bases de  dades geogràfiques(Obre en nova finestra) . La figura 3 mostra una sèrie anual de tals fotografies aèries. Aquestes bases de dades han d'actualitzar-se i mantenir-se contínuament, amb noves imatges aèries afegides cada any. Aquesta tasca inclou la identificació de tots els edificis recentment construïts, demolits o actualitzats. Realitzar aquesta inspecció manualment és molt laboriós, per la qual cosa el govern luxemburguès va llançar un projecte per desenvolupar una prova de concepte d'una eina basada en IA que pugui identificar automàticament els canvis als edificis. El projecte va produir resultats satisfactoris i un objectiu per a les versions posteriors és incloure altres objectes topogràfics com a senderes per caminar.

Canvis paisatgístics en Beaufort, Luxemburg, 2001-2022

Com a  exemplefinal de cas d'ús, la Comissió Europea va llançar la Iniciativa Europea de  Imatges del Càncer(Obre en nova finestra)  per aprofitar les dades i les tecnologies digitals, com la IA, per combatre el càncer. Aquesta iniciativa té com a objectiu crear un  conjunt de dades obert(Obre en nova finestra)  que vinculi tots els recursos i bases de dades existents en tota Europa, treballant cap a una infraestructura més oberta, disponible i fàcil d'usar per a les imatges del càncer. S'espera que la infraestructura es completi al desembre de 2023, després de la qual cosa els proveïdors de dades podran connectar-se a la plataforma.

Conclusió

El potencial dels sistemes de IA en la societat és enorme. Quan es combinen amb dades obertes, es fan possibles noves oportunitats tant per obtenir nous coneixements de les dades obertes com per impulsar els sistemes de IA per a nous usos. La lliure disponibilitat de dades obertes proporcionades a tots els ciutadans sense límits en la seva reutilització permet a les empreses implementar aquestes dades en els seus sistemes de IA. Els nous casos d'ús estan recolzats per la diversitat de dades obertes tant en la seva amplitud potencial, que oferiria múltiples casos d'ús per a sistemes de IA, com en la seva profunditat potencial, que oferiria una representació profunda d'un cas d'ús específic. Les iniciatives polítiques que promouen l'intercanvi de determinats conjunts de dades recolzen la diversitat de les dades obertes a Europa.

Augmentar l'accés a dades obertes d'alta qualitat és una prioritat per desbloquejar la sinergia entre les dades obertes i la IA. Les millores addicionals en la qualitat de les dades estan recolzades per políticas e iniciativas comunitarias que imponen estándares de calidad y métodos de curación en datos abiertos. Data.europa.eu contribueix a aquest objectiu mitjançant, entre altres mitjans, el seu  panell de control de qualitat(Obre en nova finestra)  de metadades que pretén ajudar als proveïdors de dades i portals de dades nacionals a avaluar les seves metadades en funció de diversos indicadors, com l'accessibilitat i la reutilització.

Font original de la notícia(Obre en nova finestra)

  • Informació i dades del sector públic
  • Intel·ligència Artificial i Blockchain