Corpus lingüísticos: el motor del conocimiento para la IA

La transferència de coneixement humà cap als models d'aprenentatge automàtic és la base de tota la intel·ligència artificial actual. Si volem que els models de IA siguin capaços de resoldre tasques, primer hem de codificar i transmetre'ls tasques resoltes en un llenguatge formal que puguin processar. Entenem com a tasca resolta la informació codificada en diferents formats, com el text, la imatge, l'àudio o el vídeo. En el cas del processament del llenguatge, i amb la finalitat d'aconseguir sistemes amb una alta competència lingüística perquè puguin comunicar-se de manera àgil amb nosaltres, necessitem traslladar a aquests sistemes el major nombre possible de produccions humanes en text. A aquests conjunts de dades els cridem corpus.

Corpus: conjunts de dades en text

Quan parlem dels corpus, corpora (el seu plural llatí) o datasets que s'han utilitzat per entrenar als grans models de llenguatge (LLMs per Large Language Models) com GPT-4, parlem de llibres de tot tipus, contingut escrit en pàgines web, grans repositoris de text i informació del món com Wikipedia, però també produccions lingüístiques menys formals com les quals escrivim en xarxes socials, en ressenyes públiques de productes o serveis, o fins i tot en correus electrònics. Aquesta varietat permet que aquests models de llenguatge puguin processar i manejar text en diferents idiomes, registres i estils.

Per a les persones que treballen en Processament del Llenguatge Natural (PLN), ciència i enginyeria de dades, són coneguts i habituals els grans facilitadors com Kaggle o repositoris com Awesome Public Datasets en GitHub, que proporcionen accés directe a la descàrrega de fonts de dades públiques. Alguns d'aquests fitxers de dades han estat preparats per al seu processament i estan llests per analitzar, mentre que uns altres es troben en un estat no estructurat, que requereix un treball previ de neteja i ordenació abans de poder començar a treballar amb ells. Encara que també contenen dades numèriques quantitatives, moltes d'aquestes fonts presenten dades en text que poden utilitzar-se per entrenar models de llenguatge.

El problema de la legitimitat

Una de les complicacions que hem trobat en la creació d'aquests models és que les dades en text que estan publicats en internet i han estat recollits mitjançant API (connexions directes que permeten la descàrrega massiva d'una web o repositori) o altres tècniques, no sempre són de domini públic. En moltes ocasions, tenen copyright: escriptors, traductors, periodistes, creadors de contingut, guionistes, il·lustradors, dissenyadors i també músics reclamen a les grans tecnològiques un llicenciament per l'ús dels seus continguts en text i imatge per entrenar models. Els mitjans de comunicació, en concret, són actors enormement impactats per aquesta situació, encara que el seu posicionament varia en funció de la seva situació i de diferents decisions de negoci. Per això és necessari que existeixin corpus oberts que es puguin utilitzar per a aquestes tasques d'entrenament, sense perjudici de la propietat intel·lectual.

Característiques idònies per a un corpus d'entrenament

La majoria de les característiques, que tradicionalment han definit a un bon corpus en investigación lingüística, no han variado al utilizarse en la actualidad estos conjuntos de datos en texto para entrenar modelos de lenguaje.

Sigue siendo beneficioso utilizar textos completos y no fragmentos, para asegurar su coherencia.
Els textos han de ser autèntics, procedents de la realitat lingüística i de situacions naturals del llenguatge, recuperables i verificables.
És important assegurar una diversitat àmplia en la procedència dels textos quant a sectors de la societat, publicacions, varietats locals dels idiomes i emissors o parlants.
A més del llenguatge general, ha d'incloure's una àmplia varietat de llenguatges d'especialitat, tecnicismes i textos específics de diferents àrees del coneixement.
El registre és fonamental en una llengua, per la qual cosa hem de cobrir tant el registre formal com l'informal, en els seus extrems i regions intermèdies.
El llenguatge ha d'estar ben format per evitar interferències en l'aprenentatge, per la qual cosa és convenient eliminar marques de codi, nombres o símbols que corresponguin a metadades digitals i no a la formació natural del llenguatge.

Com a recomanacions específiques per als formats dels arxius que van a formar part d'aquests corpus, trobem que els corpus de text amb anotacions han d'emmagatzemar-se en codificació UTF-8 i en format JSON o CSV, no en PDF. Els corpus sonors tenen com a format preferent WAV 16 bits, 16 KHz. (per a veu) o 44.1 KHz (per a música i àudio). Els corpus en vídeo és convenient recopilar-los en format MPEG-4 (MP4), i les memòries de traducció en TMX o CSV.

El text com a patrimoni col·lectiu

Les biblioteques nacionals a Europa estan digitalitzant activament els seus rics dipòsits d'història i cultura, assegurant l'accés públic i la preservació. Institucions com la Biblioteca Nacional de França o la British Library lideren amb iniciatives que digitalitzen des de manuscrits antics fins a publicacions actuals en web. Aquest atresorament digital no solament protegeix el patrimoni contra la deterioració física, sinó que també democratitza l'accés per als investigadors i el públic i, des de fa alguns anys, també permet la recopilació de corpus d'entrenament per a models d'intel·ligència artificial.

Els corpus proporcionats de manera oficial per biblioteques nacionals permeten que les col·leccions de textos serveixin per crear tecnologia pública a l'abast de tots: un patrimoni cultural col·lectiu que genera un nou patrimoni col·lectiu, aquesta vegada tecnològic. El guany és major quan aquests corpus institucionals sí estan enfocats a complir amb les lleis de propietat intel·lectual, proporcionant únicament dades obertes i textos lliures de restriccions de drets d'autor, amb drets prescrits o llicenciats. Això, unit al fet esperançador que la quantitat de dades reals necessària per entrenar models de llenguatge va reduint-se a mesura que avança la tecnologia , per exemple, amb la generació de dades sintètiques o l'optimització de determinats paràmetres, indica que és possible entrenar grans models de text sense infringir les lleis de propietat intel·lectual que operen a Europa .

En concret, la Biblioteca Nacional d'Espanya està fent un gran esforç de digitalització per posar els seus valuosos repositoris de text a la disposició de la recerca, i en particular de les tecnologies del llenguatge. Des que en 2008 es va realitzar la primera gran digitalització massiva de col·leccions físiques, la BNE ha obert l'accés a milions de documents amb l'únic objectiu de compartir i universalitzar el coneixement. En 2023, i gràcies a la inversió procedent dels fons de Recuperació, Transformació i Resiliència de la Unió Europea, la BNE impulsa un nou projecte de preservació digital en el seu Pla Estratègic 2023-2025 , centrada en quatre eixos:

la digitalització massiva i sistemàtica de les col·leccions,
BNELab como catalizador de innovación y reutilización de datos en ecosistemas digitales,
aliances i nous entorns de cooperació,
i integració i sostenibilitat tecnològica.

La alineación de estos cuatro ejes con las nuevas tecnologías de inteligencia artificial y procesamiento del lenguaje natural es más que notoria, ya que una de las principales reutilizaciones de datos es el entrenamiento de grandes modelos de lenguaje. Tanto los registros bibliográficos digitalizados como los índices de catalogación de la Biblioteca son materiales de valor para la tecnología del conocimiento.

Models de llenguatge en espanyol

L'any 2020, i com una iniciativa pionera i relativament primerenca, a Espanya es presentava MarIA , un model de llenguatge impulsat per la Secretaria d'Estat de Digitalització i Intel·ligència Artificial i desenvolupat pel Centre Nacional de Supercomputación (BSC-CNS), a partir dels arxius de la Biblioteca Nacional d'Espanya. En aquest cas, el corpus estava compost per textos procedents de pàgines web, que havien estat recopilats per la BNE des de l'any 2009 i que havien servit per nodrir un model basat originalment en GPT-2.

Han ocorregut moltes coses entre la creació de MARIA i el anunci en el Mobile World Congress de 2024 de la construcció d'un gran model fundacional de llenguatge, entrenat específicament en espanyol i llengües cooficials . Aquest sistema serà de codi obert i transparent, i únicament utilitzarà en el seu entrenament contingut lliure de drets. Aquest projecte és pioner a nivell europeu, ja que cerca proporcionar des de les institucions una infraestructura lingüística oberta, pública i accessible per a les empreses. Igual que MARIA, el model es desenvoluparà en el BSC-CNS, en un treball conjunt amb la Biblioteca Nacional d'Espanya i altres actors com l'Acadèmia Espanyola de la Llengua i l'Associació d'Acadèmies de la Llengua Espanyola.

A més de les institucions que poden aportar col·leccions lingüístiques o bibliogràfiques, existeixen moltes més institucions a Espanya que poden proporcionar corpus de qualitat que poden servir també per a l'entrenament de models en espanyol. El Estudi sobre dades reutilitzables com a recursos lingüístics, publicat en 2019 en el marc del Pla de Tecnologies del Llenguatge, ja apuntava a diferents fonts: les patents i els informes tècnics de l'Oficina de Patents i Marques, tant espanyoles com a europees, els diccionaris terminològics del Centre de Terminologia, o dades tan elementals com el padró, de l'Institut Nacional d'Estadística, o els topònims de l'Institut Geogràfic Nacional. Quan parlem de contingut audiovisual, que pot ser transcrit per a la seva reutilització, comptem amb l'arxiu en vídeo de RTVE A la carta, l'Arxiu Audiovisual del Congrés dels Diputats o els arxius de les diferents televisions autonòmiques. El propi Butlletí Oficial de l'Estat i els seus materials associats són una font important d'informació en text que conté coneixements amplis sobre la nostra societat i el seu funcionament. Finalment, en àmbits específics com la salut o la justícia, comptem amb les publicacions de l'Agència Espanyola de Medicaments i Productes Sanitaris, els textos de jurisprudència del CENDOJ o els enregistraments de vistes judicials del Consell General del Poder Judicial.

Iniciatives europees

A Europa no sembla haver-hi un precedent tan clar com MARIA o el proper model basat en GPT en espanyol, com a projectes impulsats a nivell estatal i entrenats amb dades patrimonials, procedents de biblioteques nacionals o organismes oficials.

No obstant això, a Europa hi ha un bon treball previ de disponibilitat de la documentació que podria utilitzar-se ara per entrenar sistemes de IA de fundació europea. Un bon exemple és el projecte Europeana , que cerca digitalitzar i fer accessible el patrimoni cultural i artístic d'Europa en conjunt. És una iniciativa col·laborativa que reuneix contribucions de milers de museus, biblioteques, arxius i galeries, proporcionant accés gratuït a milions d'obres d'art, fotografies, llibres, peces de música i vídeos. Europeana compta amb gairebé 25 milions de documents en text, que podrien ser la base per crear models fundacionals multilingües o competents en les diferents llengües europees.

Existeixen també iniciatives no governamentals, però amb impacte global, com Common Corpus , que són la prova definitiva que és possible entrenar models de llenguatge amb dades obertes i sense infringir les lleis de drets d'autor. Common Corpus es va alliberar al març de 2024, i és el conjunt de dades més extens creat per a l'entrenament de grans models de llenguatge, amb 500 mil milions de paraules procedents de diferents iniciatives de patrimoni cultural. Aquest corpus és multilingüe i és el més gran fins avui en anglès, francès, neerlandès, espanyol, alemany i italià.

I finalment, més enllà del text, és possible trobar iniciatives en altres formats com l'àudio, que també poden servir per entrenar models de IA. En 2022, la Biblioteca Nacional de Suècia va proporcionar un corpus sonor de més de dos milions d'hores d'enregistrament procedents de la ràdio pública local, podcasts i audiollibres. L'objectiu del projecte era generar un model basat en IA de transcripció d'àudio a text competent en l'idioma, que maximitzés el nombre de parlants per aconseguir un dataset disponible per a tots, divers i democràtic.

Fins ara, en la recopilació i la posada a la disposició de la societat de dades en text era suficient el sentit del col·lectiu i el patrimoni. Amb els models de llenguatge, aquesta obertura aconsegueix un benefici major: el de crear i mantenir una tecnologia que aporti valor a les persones i a les empreses, alimentada i millorada a partir de les nostres pròpies produccions lingüístiques.

Font original de la notícia (Obre en nova finestra)

Corpus lingüístics: el motor del coneixement per la IA

Corpus: conjunts de dades en text

El problema de la legitimitat

El text com a patrimoni col·lectiu

Models de llenguatge en espanyol

Iniciatives europees