Los models de llenguatge es troben en l'epicentre del canvi de paradigma tecnològic que està protagonitzant la intel·ligència artificial (IA) generativa en els últims dos anys. Des de les eines amb les quals interaccionem en llenguatge natural per generar text, imatges o vídeos i que utilitzem per crear contingut creatiu , dissenyar prototips o produir material educatiu , fins a aplicacions més complexes en recerca i desenvolupament que fins i tot han contribuït de forma decisiva a la consecució de el Premi Nobel de Química de 2024 , els models de llenguatge estan demostrant la seva utilitat en una gran varietat d'aplicacions, que d'altra banda, encara estem explorant.
Des que en 2017 Google va publicar l'influent article " Attention is all you need ", on es va descriure l'arquitectura dels Transformers , tecnologia que sustenta les noves capacitats que OpenAI va popularitzar a la fi de 2022 amb el llançament de ChatGPT, l'evolució dels models de llenguatge ha estat més que vertiginosa. En amb prou feines dos anys, hem passat de models centrats únicament en la generació de text a versions multimodales que integren la interacció i generació de text, imatges i àudio.
Aquesta ràpida evolució ha donat lloc a dues categories de models de llenguatge: els SLM (Small Language Models), més lleugers i eficients, i els LLM (Large Language Models), més pesats i potents . Lluny de considerar-los competidors, hem d'analitzar els SLM i LLM com a tecnologies complementàries. Mentre els LLM ofereixen capacitats generals de processament i generació de contingut, els SLM poden proporcionar suport a solucions més àgils i especialitzades per a necessitats concretes. No obstant això, tots dos comparteixen un element essencial: depenen de grans volums de dades per al seu entrenament i en el cor de les seves capacitats estan les dades obertes, que són part del combustible que s'utilitza per entrenar aquests models de llenguatge en els quals es basen les aplicacions de IA generativa .
LLM: potència impulsada per dades massives
Els LLM són models de llenguatge a gran escala que compten amb milers de milions, i fins i tot bilions, de paràmetres. Aquests paràmetres són les unitats matemàtiques que permeten al model identificar i aprendre patrons en les dades d'entrenament, la qual cosa els proporciona una extraordinària capacitat per generar text (o altres formats) coherent i adaptat al context dels usuaris. Aquests models, com la família GPT de OpenAI , Gemini de Google o Llama de Meta , s'entrenen amb immensos volums de dades i són capaces de realitzar tasques complexes, algunes fins i tot per les quals no van anar explícitament entrenats.
D'aquesta manera, els LLM són capaços de realitzar tasques com la generació de contingut original, la resposta a preguntes amb informació rellevant i ben estructurada o la generació de codi de programari, totes elles amb un nivell de competència igual o superior al dels humans especialitzats en aquestes tasques i sempre mantenint converses complexes i fluides.
Els LLM es basen en quantitats massives de dades per aconseguir el seu nivell d'acompliment actual: des de repositoris com Common Crawl , que recopila dades de milions de pàgines web , fins a fonts estructurades com Wikipedia o conjunts especialitzats com PubMed Open Access en el camp biomèdic. Sense accés a aquests corpus massius de dades obertes, la capacitat d'aquests models per generalitzar i adaptar-se a múltiples tasques seria molt més limitada.
No obstant això, a mesura que els LLM continuen evolucionant, la necessitat de dades obertes augmenta per aconseguir progressos específics com:
- Major diversitat lingüística i cultural: encara que els LLM actuals manegen múltiples idiomes, en general estan dominats per dades en anglès i altres idiomes majoritaris. La falta de dades obertes en altres llengües limita la capacitat d'aquests models per ser veritablement inclusius i diversos . Més dades obertes en idiomes diversos garantirien que els LLM puguin ser útils per a totes les comunitats, preservant al mateix temps la riquesa cultural i lingüística del món.
- Reducció de biaixos: els LLM, com qualsevol model de IA, són propensos a reflectir els biaixos presents en les dades amb els quals s'entrenen. Això, en ocasions, genera respostes que perpetuen estereotips o desigualtats. Incorporar més dades obertes acuradament seleccionats, especialment de fonts que promoguin la diversitat i la igualtat, és fonamental per construir models que representin de manera justa i equitativa a diferents grups socials.
- Actualització constant: les dades a la web i en altres recursos oberts canvien constantment. Sense accés a dades actualitzades, els LLM generen respostes obsoletes molt ràpidament. Per això, incrementar la disponibilitat de dades obertes frescs i rellevants permetria als LLM mantenir-se alineats amb l'actualitat .
- Entrenamiento més accessible: a mesura que els LLM creixen en grandària i capacitat, també ho fa el cost d'entrenar-los i afinar-los. Les dades obertes permeten que desenvolupadors independents, universitats i petites empreses entrenin i afinin els seus propis models sense necessitat de costoses adquisicions de dades. D'aquesta manera es democratitza l'accés a la intel·ligència artificial i es fomenta la innovació global.
Per solucionar alguns d'aquests reptes, en la nova Estratègia d'Intel·ligència Artificial 2024 s'han inclòs mesures destinades a generar models i corpus en castellà i llengües cooficials, incloent també el desenvolupament de conjunts de dades d'avaluació que consideren l'avaluació ètica.
SLM: eficiència optimitzada amb dades específiques
D'altra banda, els SLM han emergit com una alternativa eficient i especialitzada que utilitza un nombre més reduït de paràmetres (generalment en milions) i que estan dissenyats per ser lleugers i ràpids. Encara que no aconsegueixen la versatilitat i competència dels LLM en tasques complexes, els SLM destaquen per la seva eficiència computacional, rapidesa d'implementació i capacitat per especialitzar-se en dominis concrets.
Per a això, els SLM també depenen de dades obertes, però en aquest cas, la qualitat i rellevància dels conjunts de dades són més importants que el seu volum, per això els reptes que els afecten estan més relacionats amb la neteja i especialització de les dades. Aquests models requereixen conjunts que estiguin acuradament seleccionats i adaptats al domini específic pel qual es van a utilitzar, ja que qualsevol error, biaix o falta de representativitat en les dades pot tenir un impacte molt major en el seu acompliment. A més, a causa del seu enfocament en tasques especialitzades, els SLM enfronten desafiaments addicionals relacionats amb l'accessibilitat de dades obertes en camps específics. Per exemple, en sectors com la medicina, l'enginyeria o el dret, les dades obertes rellevants solen estar protegits per restriccions legals i/o ètiques, la qual cosa dificulta el seu ús per entrenar models de llenguatge.
Els SLM s'entrenen amb dades acuradament seleccionades i alineats amb el domini en el qual s'utilitzaran, la qual cosa els permet superar als LLM en precisió i especificitat en tasques concretes, com per exemple:
- Autocompletado de textos: un SLM per autocompletado en espanyol pot entrenar-se amb una selecció de llibres, textos educatius o corpus com els quals s'impulsaran en la ja esmentada Estratègia de IA , sent molt més eficient que un LLM de propòsit general per a aquesta tasca.
- Consultes jurídiques: un SLM entrenat amb conjunts de dades jurídiques obertes poden proporcionar respostes precises i contextualitzades a preguntes legals o processar documents contractuals de forma més eficaç que un LLM.
- Educació personalitzada: en el sector educatiu, SLM entrenats amb dades obertes de recursos didàctics poden generar explicacions específiques, exercicis personalitzats o fins i tot avaluacions automàtiques, adaptades al nivell i les necessitats de l'estudiant.
- Diagnòstic mèdic: un SLM entrenat amb c onjuntos de dades mèdiques , com a resums clínics o publicacions obertes, pot assistir a metges en tasques com la identificació de diagnòstics preliminars, la interpretació d'imatges mèdiques mitjançant descripcions textuals o l'anàlisi d'estudis clínics.
Desafíos i consideracions ètiques
No hem d'oblidar que, malgrat els beneficis, l'ús de dades obertes en models de llenguatge presenta desafiaments significatius. Un dels principals reptes és, com ja hem esmentat, garantir la qualitat i neutralitat de les dades perquè estiguin lliures de biaixos, ja que aquests poden amplificar-se en els models, perpetuant desigualtats o prejudicis.
Encara que un conjunt de dades sigui tècnicament obert, la seva utilització en models d'intel·ligència artificial sempre planteja algunes implicacions ètiques. Per exemple, és necessari evitar que informació personal o sensible es filtri o pugui deduir-se dels resultats generats pels models, ja que això podria causar danys a la privadesa de les persones .
També ha de tenir-se en compte la qüestió de la atribució i propietat intel·lectual de les dades. L'ús de dades obertes en models comercials ha d'abordar com es reconeix i compensa adequadament als creadors originals de les dades perquè segueixin existint incentius als creadors.
Les dades obertes són el motor que impulsa les sorprenents capacitats dels models de llenguatge, tant en el cas dels SLM com dels LLM. Mientras que els SLM destaquen per la seva eficiència i accessibilitat, els LLM obren portes a aplicacions avançades que no fa molt ens semblaven impossibles. No obstant això, el camí cap al desenvolupament de models més capaços, però també més sostenibles i representatius, depèn en gran manera de com gestionem i aprofitem les dades obertes.