accesskey_mod_content

Les dades obertes com a font de coneixement per a la intel·ligència artificial generativa

  • Escoltar
  • Copiar
  • Imprimir PDF
  • Compartir

"Notícia disponible únicament amb finalitats històriques i d'hemeroteca. La informació i enllaços mostrats es corresponen amb els quals estaven operatius a la data de la seva publicació. No es garanteix que continuïn actius actualment".

16 febrer 2023

La intel·ligència artificial generativa es refereix a la capacitat d'una màquina per generar contingut original i creatiu, com a imatges, text o música, a partir d'un conjunt de dades d'entrada.

Pel que fa a la generació de text, aquests models són accessibles, en format experimental, des de fa un temps, però van començar a generar interès a mitjan 2020 quan Open AI(Obre en nova finestra) , una organització dedicada a la recerca en el camp de la intel·ligència artificial general(Obre en nova finestra) , va publicar l'accés al seu model de llenguatge GPT-3 a través d'una API (Obre en nova finestra) .

L'arquitectura d'està GPT-3 composta per 175.000 milions de paràmetres, mentre que la del seu antecessor GPT-2 era d'1.500 milions de paràmetres, això és, més de 100 vegades més. GPT-3 representa per tant un canvi d'escala enorme ja que a més va ser entrenat amb un corpus de dades molt major i una grandària dels tokens molt més gran, la qual cosa li va permetre adquirir una comprensió més profunda i complexa del llenguatge humà.

A pesar que va ser en 2022 quan OpenAI va anunciar l'obertura de chatGPT(Obre en nova finestra) que permet dotar d'una interfície conversacional a un model de llenguatge basat en una versió millorada de GPT-3, no ha estat fins als últims dos mesos quan la notícia ha cridat massivament l'atenció del públic, gràcies a l'àmplia cobertura mediàtica que tracta de donar resposta a l'incipient interès general.

I és que, ChatGPT no només és capaç de generar text a partir d'un conjunt de caràcters ( prompt ) com GPT-3 , sinó que respon a preguntes en llenguatge natural en diversos idiomes que inclouen anglès, espanyol, francès, alemany, italià o portuguès. És precisament aquest canvi en la interfície d'accés, passant de ser una API a chatbot un , la qual cosa ho ha convertit a l'en IA accessible per a qualsevol tipus d'usuari.

Tant és així que més d'un milió de persones es van registrar per usar-ho en tan sol cinc dies, la qual cosa ha motivat la multiplicació d'exemples en els quals chatGPT produeix codi de programari, assajos de nivell universitari, poemes i fins i tot acudits. Això sense tenir en compte que ha estat capaç de treure endavant un examen de selectivitat d'Història(Obre en nova finestra) o d'aprovar aprovar l'examen final del MBA de la prestigiosa Wharton School(Obre en nova finestra) .

Tot això ha posat IA a la generativa al centre d'una nova ona d'innovació tecnològica que promet revolucionar la forma en què ens relacionem amb internet i la web a través de cerques vitaminadas per  IA o navegadors capaços de resumir el resultat d'aquestes cerques.

Les dades obertes

GPT-3 , igual que altres models que han estat generats amb les tècniques descrites en la  publicació científica original de GTP-3(Obre en nova finestra) , és un model de llenguatge pre-entrenat, la qual cosa significa que ha estat entrenat amb un gran conjunt de dades, en total uns 45 terabytes de dades de text. Segons est paper , el conjunt de dades d'entrenament estava compost en un 60% per dades obtingudes directament d'internet en els quals estan continguts milions de documents de tot tipus, un 22% del corpus WebText2(Obre en nova finestra) construït a partir de Reddit , i la resta amb una combinació de llibres (16%) i Wikipedia (3%).

No obstant això, no se sap quants dades obertes utilitza GPT-3 exactament, ja que OpenAI no proporciona detalls més específics sobre el conjunt de dades utilitzat per entrenar el model. El que sí podem fer són algunes preguntes al propi chatGPT que ens ajudin a extreure interessants conclusions sobre l'ús que fa de les dades obertes.

S'estan realitzant proves en el chatGPT i veiem com les dades obertes sí poden contribuir a l'evolució tecnològica i, per tant, a millorar el funcionament de la intel·ligència artificial d'Open AI. No obstant això, donat l'estat de maduresa actual de la mateixa, encara és aviat per veure una ocupació òptima d'aquests, a l'hora de donar resposta a preguntes més complexes. (veáse exemples en la font original de la notícia).

Per tant, perquè un model d'intel·ligència artificial generativa sigui eficaç, és necessari que compti amb una gran quantitat de dades d'alta qualitat i diversitat, i les dades obertes són una font de coneixement valuosa per a aquesta fi.

Probablement, en futures versions del model, puguem veure com les dades obertes ja adquireixen un pes molt més important en la composició del corpus d'entrenament, aconseguint aconseguir una millora important en la qualitat de les respostes de tipus factual.

Intel·ligència artificial generativa(Obre en nova finestra)

Font original de la notícia(Obre en nova finestra)

  • Informació i dades del sector públic