Corpus lingüísticos: el motor del conocimiento para la IA

La transferència de coneixement humà cap als models d'aprenentatge automàtic és la base de tota la intel·ligència artificial actual. Si volem que els models de IA siguen capaços de resoldre tasques, primer hem de codificar i transmetre'ls tasques resoltes en un llenguatge formal que puguen processar. Entenem com a tasca resolta la informació codificada en diferents formats, com el text, la imatge, l'àudio o el vídeo. En el cas del processament del llenguatge, i amb la finalitat d'aconseguir sistemes amb una alta competència lingüística perquè puguen comunicar-se de manera àgil amb nosaltres, necessitem traslladar a estos sistemes el major nombre possible de produccions humanes en text. A estos conjunts de dades els cridem corpus.

Corpus: conjunts de dades en text

Quan parlem dels corpus, corpora (el seu plural llatí) o datasets que s'han utilitzat per a entrenar als grans models de llenguatge (LLMs per Large Language Models) com GPT-4, parlem de llibres de tot tipus, contingut escrit en pàgines web, grans repositoris de text i informació del món com Wikipedia, però també produccions lingüístiques menys formals com les quals escrivim en xarxes socials, en ressenyes públiques de productes o servicis, o fins i tot en correus electrònics. Esta varietat permet que estos models de llenguatge puguen processar i manejar text en diferents idiomes, registres i estils.

Per a les persones que treballen en Processament del Llenguatge Natural (PLN), ciència i enginyeria de dades, són coneguts i habituals els grans facilitadors com Kaggle o repositoris com Awesome Public Datasets en GitHub, que proporcionen accés directe a la descàrrega de fonts de dades públiques. Alguns d'estos fitxers de dades han sigut preparats per al seu processament i estan llests per a analitzar, mentre que uns altres es troben en un estat no estructurat, que requerix un treball previ de neteja i ordenació abans de poder començar a treballar amb ells. Encara que també contenen dades numèriques quantitatives, moltes d'estes fonts presenten dades en text que poden utilitzar-se per a entrenar models de llenguatge.

El problema de la legitimitat

Una de les complicacions que hem trobat en la creació d'estos models és que les dades en text que estan publicats en internet i han sigut arreplegats mitjançant API (connexions directes que permeten la descàrrega massiva d'una web o repositori) o altres tècniques, no sempre són de domini públic. En moltes ocasions, tenen copyright: escriptors, traductors, periodistes, creadors de contingut, guionistes, il·lustradors, dissenyadors i també músics reclamen a les grans tecnològiques un llicenciament per l'ús dels seus continguts en text i imatge per a entrenar models. Els mitjans de comunicació, en concret, són actors enormement impactats per esta situació, encara que el seu posicionament varia en funció de la seua situació i de diferents decisions de negoci. Per açò és necessari que existisquen corpus oberts que es puguen utilitzar per a estes tasques d'entrenament, sense perjuí de la propietat intel·lectual.

Característiques idònies per a un corpus d'entrenament

La majoria de les característiques, que tradicionalment han definit a un bon corpus en investigació lingüística, no han variat en utilitzar-se en l'actualitat estos conjunts de dades en text per a entrenar models de llenguatge.

Seguix sent beneficiós utilitzar textos complets i no fragments, per a assegurar la seua coherència.
Els textos han de ser autèntics, procedents de la realitat lingüística i de situacions naturals del llenguatge, recuperables i verificables.
És important assegurar una diversitat àmplia en la procedència dels textos quant a sectors de la societat, publicacions, varietats locals dels idiomes i emissors o parlants.
A més del llenguatge general, ha d'incloure's una àmplia varietat de llenguatges d'especialitat, tecnicismes i textos específics de diferents àrees del coneixement.
El registre és fonamental en una llengua, per la qual cosa hem de cobrir tant el registre formal com l'informal, en els seus extrems i regions intermèdies.
El llenguatge ha d'estar ben format per a evitar interferències en l'aprenentatge, per la qual cosa és convenient eliminar marques de codi, nombres o símbols que corresponguen a metadades digitals i no a la formació natural del llenguatge.

Com a recomanacions específiques per als formats dels arxius que van a formar part d'estos corpus, trobem que els corpus de text amb anotacions han d'emmagatzemar-se en codificació UTF-8 i en format JSON o CSV, no en PDF. Els corpus sonors tenen com a format preferent WAV 16 bits, 16 KHz. (per a veu) o 44.1 KHz (per a música i àudio). Els corpus en vídeo és convenient recopilar-los en format MPEG-4 (MP4), i les memòries de traducció en TMX o CSV.

El text com a patrimoni col·lectiu

Les biblioteques nacionals a Europa estan digitalitzant activament els seus rics depòsits d'història i cultura, assegurant l'accés públic i la preservació. Institucions com la Biblioteca Nacional de França o la British Library lideren amb iniciatives que digitalitzen des de manuscrits antics fins a publicacions actuals en web. Este atresorament digital no solament protegix el patrimoni contra el deteriorament físic, sinó que també democratitza l'accés per als investigadors i el públic i, des de fa alguns anys, també permet la recopilació de corpus d'entrenament per a models d'intel·ligència artificial.

Els corpus proporcionats de manera oficial per biblioteques nacionals permeten que les col·leccions de textos servisquen per a crear tecnologia pública a l'abast de tots: un patrimoni cultural col·lectiu que genera un nou patrimoni col·lectiu, esta vegada tecnològic. El guany és major quan estos corpus institucionals sí estan enfocats a complir amb les lleis de propietat intel·lectual, proporcionant únicament dades obertes i textos lliures de restriccions de drets d'autor, amb drets prescrits o llicenciats. Açò, unit al fet esperançador que la quantitat de dades reals necessària per a entrenar models de llenguatge va reduint-se a mesura que avança la tecnologia , per exemple, amb la generació de dades sintètiques o l'optimització de determinats paràmetres, indica que és possible entrenar grans models de text sense infringir les lleis de propietat intel·lectual que operen a Europa .

En concret, la Biblioteca Nacional d'Espanya està fent un gran esforç de digitalització per a posar els seus valuosos repositoris de text a la disposició de la investigació, i en particular de les tecnologies del llenguatge. Des que en 2008 es va realitzar la primera gran digitalització massiva de col·leccions físiques, la BNE ha obert l'accés a milions de documents amb l'únic objectiu de compartir i universalisar el coneixement. En 2023, i gràcies a la inversió procedent dels fons de Recuperació, Transformació i Resiliència de la Unió Europea, la BNE impulsa un nou projecte de preservació digital en el seu Pla Estratègic 2023-2025 , centrada en quatre eixos:

la digitalització massiva i sistemàtica de les col·leccions,
BNELab com a catalitzador d'innovació i reutilització de dades en ecosistemes digitals,
aliances i nous entorns de cooperació,
i integració i sostenibilitat tecnològica.

L'alineació d'estos quatre eixos amb les noves tecnologies d'intel·ligència artificial i processament del llenguatge natural és més que notòria, ja que una de les principals reutilitzacions de dades és l'entrenament de grans models de llenguatge. Tant els registres bibliogràfics digitalitzats com els índexs de catalogació de la Biblioteca són materials de valor per a la tecnologia del coneixement.

Models de llenguatge en espanyol

L'any 2020, i com una iniciativa pionera i relativament primerenca, a Espanya es presentava MarIA , un model de llenguatge impulsat per la Secretaria d'Estat de Digitalització i Intel·ligència Artificial i desenvolupat pel Centre Nacional de Supercomputación (BSC-CNS), a partir dels arxius de la Biblioteca Nacional d'Espanya. En este cas, el corpus estava compost per textos procedents de pàgines web, que havien sigut recopilats per la BNE des de l'any 2009 i que havien servit per a nodrir un model basat originalment en GPT-2.

Han ocorregut moltes coses entre la creació de MARIA i el anunci en el Mobile World Congress de 2024 de la construcció d'un gran model fundacional de llenguatge, entrenat específicament en espanyol i llengües cooficials . Este sistema serà de codi obert i transparent, i únicament utilitzarà en el seu entrenament contingut lliure de drets. Este projecte és pioner a nivell europeu, ja que busca proporcionar des de les institucions una infraestructura lingüística oberta, pública i accessible per a les empreses. Igual que MARIA, el model es desenvoluparà en el BSC-CNS, en un treball conjunt amb la Biblioteca Nacional d'Espanya i altres actors com l'Acadèmia Espanyola de la Llengua i l'Associació d'Acadèmies de la Llengua Espanyola.

A més de les institucions que poden aportar col·leccions lingüístiques o bibliogràfiques, existixen moltes més institucions a Espanya que poden proporcionar corpus de qualitat que poden servir també per a l'entrenament de models en espanyol. El Estudi sobre dades reutilitzables com a recursos lingüístics, publicat en 2019 en el marc del Pla de Tecnologies del Llenguatge, ja apuntava a diferents fonts: les patents i els informes tècnics de l'Oficina de Patents i Marques, tant espanyoles com a europees, els diccionaris terminològics del Centre de Terminologia, o dades tan elementals com el padró, de l'Institut Nacional d'Estadística, o els topònims de l'Institut Geogràfic Nacional. Quan parlem de contingut audiovisual, que pot ser transcrit per a la seua reutilització, comptem amb l'arxiu en vídeo de RTVE A la carta, l'Arxiu Audiovisual del Congrés dels Diputats o els arxius de les diferents televisions autonòmiques. El propi Butlletí Oficial de l'Estat i els seus materials associats són una font important d'informació en text que conté coneixements amplis sobre la nostra societat i el seu funcionament. Finalment, en àmbits específics com la salut o la justícia, comptem amb les publicacions de l'Agència Espanyola de Medicaments i Productes Sanitaris, els textos de jurisprudència del CENDOJ o les gravacions de vistes judicials del Consell General del Poder Judicial.

Iniciatives europees

A Europa no pareix haver-hi un precedent tan clar com MARIA o el pròxim model basat en GPT en espanyol, com a projectes impulsats a nivell estatal i entrenats amb dades patrimonials, procedents de biblioteques nacionals o organismes oficials.

No obstant açò, a Europa hi ha un bon treball previ de disponibilitat de la documentació que podria utilitzar-se ara per a entrenar sistemes de IA de fundació europea. Un bon exemple és el projecte Europeana , que busca digitalitzar i fer accessible el patrimoni cultural i artístic d'Europa en conjunt. És una iniciativa col·laborativa que reunix contribucions de milers de museus, biblioteques, arxius i galeries, proporcionant accés gratuït a milions d'obres d'art, fotografies, llibres, peces de música i vídeos. Europeana compta amb quasi 25 milions de documents en text, que podrien ser la base per a crear models fundacionals multilingües o competents en les diferents llengües europees.

Existixen també iniciatives no governamentals, però amb impacte global, com Common Corpus , que són la prova definitiva que és possible entrenar models de llenguatge amb dades obertes i sense infringir les lleis de drets d'autor. Common Corpus es va alliberar al març de 2024, i és el conjunt de dades més extens creat per a l'entrenament de grans models de llenguatge, amb 500 mil milions de paraules procedents de diferents iniciatives de patrimoni cultural. Este corpus és multilingüe i és el més gran fins hui en anglés, francés, neerlandés, espanyol, alemany i italià.

I finalment, més enllà del text, és possible trobar iniciatives en altres formats com l'àudio, que també poden servir per a entrenar models de IA. En 2022, la Biblioteca Nacional de Suècia va proporcionar un corpus sonor de més de dos milions d'hores de gravació procedents de la ràdio pública local, podcasts i audiollibres. L'objectiu del projecte era generar un model basat en IA de transcripció d'àudio a text competent en l'idioma, que maximitzara el nombre de parlants per a aconseguir un dataset disponible per a tots, divers i democràtic.

Fins ara, en la recopilació i la posada a la disposició de la societat de dades en text era suficient el sentit del col·lectiu i el patrimoni. Amb els models de llenguatge, esta obertura aconseguix un benefici major: el de crear i mantindre una tecnologia que aporte valor a les persones i a les empreses, alimentada i millorada a partir de les nostres pròpies produccions lingüístiques.

Font original de la notícia (Obri en nova finestra)

Corpus lingüístics: el motor del coneixement per a la IA

Corpus: conjunts de dades en text

El problema de la legitimitat

El text com a patrimoni col·lectiu

Models de llenguatge en espanyol

Iniciatives europees