accesskey_mod_content

El paper de les dades obertes en l'evolució dels llenguatges SLM i LLM

  • Escoltar
  • Imprimir PDF
  • Compartir

07 gener 2025

En este article de Dades.gob es reflexiona sobre les dades obertes utilitzades per a entrenar els models de llenguatge SLM (Small Language Models) -lleugers i eficients- i els LLM (Large Language Models) -pesats i potents- en els quals es basen les aplicacions de IA generativa.

Los models de llenguatge es troben en l'epicentre del canvi de paradigma tecnològic que està protagonitzant la intel·ligència artificial (IA) generativa en els últims dos anys. Des de les ferramentes amb les quals interaccionem en llenguatge natural per a generar text, imatges o vídeos i que utilitzem per a  crear contingut creatiu(Obri en nova finestra) , dissenyar prototips o  produir material educatiu(Obri en nova finestra) , fins a aplicacions més complexes en investigació i desenvolupament que fins i tot han contribuït de forma decisiva a la consecució de el  Premi Nobel de Química de 2024(Obri en nova finestra) , els models de llenguatge estan demostrant la seua utilitat en una gran varietat d'aplicacions, que d'altra banda, encara estem explorant.

Des que en 2017 Google va publicar l'influent article " Attention is all you need(Obri en nova finestra) ", on es va descriure l'arquitectura dels  Transformers(Obri en nova finestra) , tecnologia que sustenta les noves capacitats que OpenAI va popularitzar a la fi de 2022 amb el llançament de ChatGPT, l'evolució dels models de llenguatge ha sigut més que vertiginosa. En amb prou faenes dos anys, hem passat de models centrats únicament en la generació de text a versions multimodales que integren la interacció i generació de text, imatges i àudio.

Esta ràpida evolució ha donat lloc a dos categories de models de llenguatge:  els SLM (Small Language Models), més lleugers i eficients, i els LLM (Large Language Models), més pesats i potents(Obri en nova finestra) . Lluny de considerar-los competidors, hem d'analitzar els SLM i LLM com a tecnologies complementàries. Mentre els LLM oferixen capacitats generals de processament i generació de contingut, els SLM poden proporcionar suport a solucions més àgils i especialitzades per a necessitats concretes. No obstant açò, tots dos compartixen un element essencial: depenen de grans volums de dades per al seu entrenament i en el cor de les seues capacitats estan les  dades obertes, que són part del combustible que s'utilitza per a entrenar estos models de llenguatge en els quals es basen les aplicacions de IA generativa(Obri en nova finestra) .

LLM: potència impulsada per dades massives

Els LLM són models de llenguatge a gran escala que compten amb milers de milions, i fins i tot bilions, de paràmetres. Estos paràmetres són les unitats matemàtiques que permeten al model identificar i aprendre patrons en les dades d'entrenament, la qual cosa els proporciona una extraordinària capacitat per a generar text (o altres formats) coherent i adaptat al context dels usuaris. Estos models, com la família  GPT de OpenAI(Obri en nova finestra)Gemini de Google(Obri en nova finestra)  o  Llama de Meta(Obri en nova finestra) , s'entrenen amb immensos volums de dades i són capaces de realitzar tasques complexes, algunes fins i tot per a les quals no van anar explícitament entrenats.

D'esta manera, els LLM són capaços de realitzar tasques com la generació de contingut original, la resposta a preguntes amb informació rellevant i ben estructurada o la generació de codi de programari, totes elles amb un nivell de competència igual o superior al dels humans especialitzats en aquestes tasques i sempre mantenint converses complexes i fluides.

Els LLM es basen en quantitats massives de dades per a aconseguir el seu nivell d'acompliment actual: des de repositoris com  Common Crawl(Obri en nova finestra) , que recopila  dades de milions de pàgines web(Obri en nova finestra) , fins a fonts estructurades com  Wikipedia(Obri en nova finestra)  o conjunts especialitzats com  PubMed Open Access(Obri en nova finestra)  en el camp biomèdic. Sense accés a estos corpus massius de dades obertes, la capacitat d'estos models per a generalitzar i adaptar-se a múltiples tasques seria molt més limitada.

No obstant açò, a mesura que els LLM continuen evolucionant, la necessitat de dades obertes augmenta per a aconseguir progressos específics com:

  1. Major diversitat lingüística i cultural: encara que els LLM actuals manegen múltiples idiomes, en general estan dominats per dades en anglés i altres idiomes majoritaris. La falta de dades obertes en altres llengües limita la capacitat d'estos  models per a ser verdaderament inclusius i diversos(Obri en nova finestra) . Més dades obertes en idiomes diversos garantirien que els LLM puguen ser útils per a totes les comunitats, preservant al mateix temps la riquesa cultural i lingüística del món.
  2. Reducció de biaixos: els LLM, com qualsevol model de IA, són propensos a reflectir els biaixos presents en les dades amb els quals s'entrenen. Açò, en ocasions, genera respostes que perpetuen estereotips o desigualtats. Incorporar més dades obertes acuradament seleccionats, especialment de fonts que promoguen la diversitat i la igualtat, és fonamental per a construir models que representen de manera justa i equitativa a diferents grups socials.
  3. Actualització constant: les dades en la web i en altres recursos oberts canvien constantment. Sense accés a dades actualitzades, els LLM generen respostes obsoletes molt ràpidament. Per açò,  incrementar la disponibilitat de dades obertes frescs i rellevants permetria als LLM mantindre's alineats amb l'actualitat(Obri en nova finestra) .
  4. Entrenamiento més accessible: a mesura que els LLM creixen en grandària i capacitat, també ho fa el cost d'entrenar-los i afinar-los. Les dades obertes permeten que desenvolupadors independents, universitats i petit empreses entrenen i afinen els seus propis models sense necessitat de costoses adquisicions de dades. D'esta manera es democratitza l'accés a la intel·ligència artificial i es fomenta la innovació global.

Per a solucionar alguns d'estos reptes, en la nova  Estratègia d'Intel·ligència Artificial 2024(Obri en nova finestra)  s'han inclòs mesures destinades a generar models i corpus en castellà i llengües cooficials, incloent també el desenvolupament de conjunts de dades d'avaluació que consideren l'avaluació ètica.

SLM: eficiència optimitzada amb dades específiques

D'altra banda, els SLM han emergit com una alternativa eficient i especialitzada que utilitza un nombre més reduït de paràmetres (generalment en milions) i que estan dissenyats per a ser lleugers i ràpids. Encara que no aconseguixen la versatilitat i competència dels LLM en tasques complexes, els SLM destaquen per la seua eficiència computacional, rapidesa d'implementació i capacitat per a especialitzar-se en dominis concrets.

Per a açò, els SLM també depenen de dades obertes, però en este cas, la qualitat i rellevància dels conjunts de dades són més importants que el seu volum, per açò els reptes que els afecten estan més relacionats amb la neteja i especialització de les dades. Estos models requerixen conjunts que estiguen acuradament seleccionats i adaptats al domini específic per al qual es van a utilitzar, ja que qualsevol error, biaix o falta de representativitat en les dades pot tindre un impacte molt major en el seu acompliment. A més, a causa del seu enfocament en tasques especialitzades, els SLM enfronten desafiaments addicionals relacionats amb l'accessibilitat de dades obertes en camps específics. Per exemple, en sectors com la medicina, l'enginyeria o el dret, les dades obertes rellevants solen estar protegits per restriccions legals i/o ètiques, la qual cosa dificulta el seu ús per a entrenar models de llenguatge.

Els SLM s'entrenen amb dades acuradament seleccionades i alineats amb el domini en el qual s'utilitzaran, la qual cosa els permet superar als LLM en precisió i especificitat en tasques concretes, com per exemple:

  • Autocompletado de textos: un SLM per a autocompletado en espanyol pot entrenar-se amb una selecció de llibres, textos educatius o corpus com els quals s'impulsaran en la ja esmentada  Estratègia de IA , sent molt més eficient que un LLM de propòsit general per a esta tasca.
  • Consultes jurídiques: un SLM entrenat amb  conjunts de dades jurídiques obertes(Obri en nova finestra)  poden proporcionar respostes precises i contextualitzades a preguntes legals o processar documents contractuals de forma més eficaç que un LLM.
  • Educació personalitzada: en el sector educatiu, SLM entrenats amb  dades obertes de recursos didàctics(Obri en nova finestra)  poden generar explicacions específiques, exercicis personalitzats o fins i tot avaluacions automàtiques, adaptades al nivell i les necessitats de l'estudiant.
  • Diagnòstic mèdic: un SLM entrenat amb  c(Obri en nova finestra) onjuntos de dades mèdiques(Obri en nova finestra) , com a resums clínics o publicacions obertes, pot assistir a metges en tasques com la identificació de diagnòstics preliminars, la interpretació d'imatges mèdiques mitjançant descripcions textuals o l'anàlisi d'estudis clínics.

Desafíos i consideracions ètiques

No hem d'oblidar que, a pesar dels beneficis, l'ús de dades obertes en models de llenguatge presenta desafiaments significatius. Un dels principals reptes és, com ja hem esmentat, garantir la qualitat i neutralitat de les dades perquè estiguen lliures de biaixos, ja que estos poden amplificar-se en els models, perpetuant desigualtats o prejuís.

Encara que un conjunt de dades siga tècnicament obert, la seua utilització en models d'intel·ligència artificial sempre planteja algunes implicacions ètiques. Per exemple, és necessari evitar que informació personal o sensible es filtre o puga deduir-se dels resultats generats pels models, ja que açò podria causar danys a la  privacitat de les persones(Obri en nova finestra) .

També ha de tindre's en compte la qüestió de la atribució i propietat intel·lectual de les dades. L'ús de dades obertes en models comercials ha d'abordar com es reconeix i compensa adequadament als creadors originals de les dades perquè seguisquen existint incentius als creadors.

Les dades obertes són el motor que impulsa les sorprenents capacitats dels models de llenguatge, tant en el cas dels SLM com dels LLM. Mientras que els SLM destaquen per la seua eficiència i accessibilitat, els LLM obrin portes a aplicacions avançades que no fa molt ens pareixien impossibles. No obstant açò, el camí cap al desenvolupament de models més capaços, però també més sostenibles i representatius, depèn en gran mesura de com gestionem i aprofitem les dades obertes.

Font original de la notícia(Obri en nova finestra)

  • Intel·ligència Artificial i Blockchain
  • Informació i dades del sector públic