accesskey_mod_content

Los datos abiertos como fuente de conocimiento para la inteligencia artificial generativa

  • Escoltar
  • Copiar
  • Imprimir PDF
  • Compartir

"Notícia disponible únicament amb finalitats històriques i d'hemeroteca. La informació i enllaços mostrats es corresponen amb els quals estaven operatius a la data de la seua publicació. No es garantix que continuen actius actualment".

16 febrer 2023

La intel·ligència artificial generativa es referix a la capacitat d'una màquina per a generar contingut original i creatiu, com a imatges, text o música, a partir d'un conjunt de dades d'entrada.

Pel que fa a la generació de text, estos models són accessibles, en format experimental, des de fa un temps, però van començar a generar interés a mitjan 2020 quan Open AI(Obri en nova finestra) , una organització dedicada a la investigació en el camp de la intel·ligència artificial general(Obri en nova finestra) , va publicar l'accés al seu model de llenguatge GPT-3 a través d'una API (Obri en nova finestra) .

L'arquitectura d'està GPT-3 composta per 175.000 milions de paràmetres, mentre que la del seu antecessor GPT-2 era d'1.500 milions de paràmetres, açò és, més de 100 vegades més. GPT-3 representa per tant un canvi d'escala enorme ja que a més va ser entrenat amb un corpus de dades molt major i una grandària dels tokens molt més gran, la qual cosa li va permetre adquirir una comprensió més profunda i complexa del llenguatge humà.

A pesar que va ser en 2022 quan OpenAI va anunciar l'obertura de chatGPT(Obri en nova finestra) que permet dotar d'una interfície conversacional a un model de llenguatge basat en una versió millorada de GPT-3, no ha sigut fins als últims dos mesos quan la notícia ha cridat massivament l'atenció del públic, gràcies a l'àmplia cobertura mediàtica que tracta de donar resposta a l'incipient interés general.

I és que, ChatGPT no sólo es capaz de generar texto a partir de un conjunto de caracteres ( prompt ) com GPT-3 , sinó que respon a preguntes en llenguatge natural en diversos idiomes que inclouen anglés, espanyol, francés, alemany, italià o portugués. És precisament este canvi en la interfície d'accés, passant de ser una API a chatbot un , la qual cosa ho ha convertit a l'en IA accessible per a qualsevol tipus d'usuari.

Tant és així que més d'un milió de persones es van registrar per a usar-ho en tan sol cinc dies, la qual cosa ha motivat la multiplicació d'exemples en els quals chatGPT produïx codi de programari, assajos de nivell universitari, poemes i fins i tot acudits. Això sense tindre en compte que ha sigut capaç de traure avant un examen de selectivitat d'Història(Obri en nova finestra) o d'aprovar aprovar l'examen final del MBA de la prestigiosa Wharton School(Obri en nova finestra) .

Tot açò ha posat IA a la generativa en el centre d'una nova ona d'innovació tecnològica que promet revolucionar la forma en què ens relacionem amb internet i la web a través de cerques vitaminadas per  IA o navegadors capaços de resumir el resultat d'estes cerques.

Les dades obertes

GPT-3 , igual que altres models que han sigut generats amb les tècniques descrites en la  publicació científica original de GTP-3(Obri en nova finestra) , és un model de llenguatge pre-entrenat, la qual cosa significa que ha sigut entrenat amb un gran conjunt de dades, en total uns 45 terabytes de dades de text. Segons est paper , el conjunt de dades d'entrenament estava compost en un 60% per dades obtingudes directament d'internet en els quals estan continguts milions de documents de tot tipus, un 22% del corpus WebText2(Obri en nova finestra) construït a partir de Reddit , i la resta amb una combinació de llibres (16%) i Wikipedia (3%).

No obstant açò, no se sap quants dades obertes utilitza GPT-3 exactament, ja que OpenAI no proporciona detalls més específics sobre el conjunt de dades utilitzat per a entrenar el model. El que sí podem fer són algunes preguntes al propi chatGPT que ens ajuden a extraure interessants conclusions sobre l'ús que fa de les dades obertes.

S'estan realitzant proves en el chatGPT i veiem com les dades obertes sí poden contribuir a l'evolució tecnològica i, per tant, a millorar el funcionament de la intel·ligència artificial d'Open AI. No obstant açò, donat l'estat de maduresa actual de la mateixa, encara és prompte per a veure una ocupació òptima d'estos, a l'hora de donar resposta a preguntes més complexes. (veáse exemples en la font original de la notícia).

Per tant, perquè un model d'intel·ligència artificial generativa siga eficaç, és necessari que compte amb una gran quantitat de dades d'alta qualitat i diversitat, i les dades obertes són una font de coneixement valuosa per a esta fi.

Probablement, en futures versions del model, puguem veure com les dades obertes ja adquirixen un pes molt més important en la composició del corpus d'entrenament, aconseguint aconseguir una millora important en la qualitat de les respostes de tipus factual.

Intel·ligència artificial generativa(Obri en nova finestra)

Font original de la notícia(Obri en nova finestra)

  • Informació i dades del sector públic