Corpus lingüísticos: el motor del conocimiento para la IA

A transferencia de coñecemento humano cara aos modelos de aprendizaxe automática é a base de toda a intelixencia artificial actual. Se queremos que os modelos de IA sexan capaces de resolver tarefas, primeiro temos que codificar e transmitirlles tarefas resoltas nunha linguaxe formal que poidan procesar. Entendemos como tarefa resolta a información codificada en diferentes formatos, como o texto, a imaxe, o audio ou o vídeo. No caso do procesamento da linguaxe, e co fin de conseguir sistemas cunha alta competencia lingüística para que poidan comunicarse de maneira áxil connosco, necesitamos trasladar a estes sistemas o maior número posible de producións humanas en texto. A estes conxuntos de datos chamámolos corpus.

Corpus: conxuntos de datos en texto

Cando falamos de os corpus, corpora (o seu plural latino) ou datasets que se utilizaron para adestrar aos grandes modelos de linguaxe (LLMs por Large Language Models) como GPT-4, falamos de libros de todo tipo, contido escrito en páxinas web, grandes repositorios de texto e información do mundo como Wikipedia, pero tamén producións lingüísticas menos formais como as que escribimos en redes sociais, en reseñas públicas de produtos ou servizos, ou mesmo en correos electrónicos. Esta variedade permite que estes modelos de linguaxe poidan procesar e manexar texto en diferentes idiomas, rexistros e estilos.

Para as persoas que traballan en Procesamento da Linguaxe Natural (PLN), ciencia e enxeñaría de datos, son coñecidos e habituais os grandes facilitadores como Kaggle ou repositorios como Awesome Public Datasets en GitHub, que proporcionan acceso directo á descarga de fontes de datos públicas. Algúns destes ficheiros de datos foron preparados para o seu procesamento e están listos para analizar, mentres que outros se atopan nun estado non estruturado, que require un traballo previo de limpeza e ordenación antes de poder empezar a traballar con eles. Aínda que tamén conteñen datos numéricos cuantitativos, moitas destas fontes presentan datos en texto que poden utilizarse para adestrar modelos de linguaxe.

O problema da lexitimidade

Unha das complicacións que atopamos na creación destes modelos é que os datos en texto que están publicados en internet e foron recollidos mediante API (conexións directas que permiten a descarga masiva dunha web ou repositorio) ou outras técnicas, non sempre son de dominio público. En moitas ocasións, teñen copyright: escritores, tradutores, xornalistas, creadores de contido, guionistas, ilustradores, deseñadores e tamén músicos reclaman ás grandes tecnolóxicas un licenciamiento polo uso dos seus contidos en texto e imaxe para adestrar modelos. Os medios de comunicación, en concreto, son actores enormemente impactados por esta situación, aínda que o seu posicionamento varía en función da súa situación e de diferentes decisións de negocio. Por iso é necesario que existan corpus abertos que se poidan utilizar para estas tarefas de adestramento, sen prexuízo da propiedade intelectual.

Características idóneas para un corpus de adestramento

A maioría das características, que tradicionalmente definiron a un bo corpus en investigación lingüística, non variaron ao utilizarse na actualidade estes conxuntos de datos en texto para adestrar modelos de linguaxe.

Segue sendo beneficioso utilizar textos completos e non fragmentos, para asegurar a súa coherencia.
Os textos deben ser auténticos, procedentes da realidade lingüística e de situacións naturais da linguaxe, recuperables e verificables.
É importante asegurar unha diversidade ampla na procedencia dos textos en canto a sectores da sociedade, publicacións, variedades locais dos idiomas e emisores ou falantes.
Ademais da linguaxe xeral, debe incluírse unha ampla variedade de linguaxes de especialidade, tecnicismos e textos específicos de diferentes áreas do coñecemento.
O rexistro é fundamental nunha lingua, polo que debemos cubrir tanto o rexistro formal como o informal, nos seus extremos e rexións intermedias.
A linguaxe debe estar ben formado para evitar interferencias na aprendizaxe, polo que é conveniente eliminar marcas de código, números ou símbolos que correspondan a metadatos dixitais e non á formación natural da linguaxe.

Como recomendacións específicas para os formatos dos arquivos que van formar parte destes corpus, atopamos que os corpus de texto con anotacións deben almacenarse en codificación Utf-8 e en formato JSON ou CSV, non en PDF. Os corpus sonoros teñen como formato preferente WAV 16 bits, 16 KHz. (para voz) ou 44.1 KHz (para música e audio). Os corpus en vídeo é conveniente recompilalos en formato MPEG-4 (MP4), e as memorias de tradución en TMX ou CSV.

O texto como patrimonio colectivo

As bibliotecas nacionais en Europa están a dixitalizar activamente os seus ricos depósitos de historia e cultura, asegurando o acceso público e a preservación. Institucións como a Biblioteca Nacional de Francia ou a British Library lideran con iniciativas que dixitalizan desde manuscritos antigos ata publicacións actuais en web. Este atesoramiento dixital non só protexe o patrimonio contra a deterioración física, senón que tamén democratiza o acceso para os investigadores e o público e, desde hai algúns anos, tamén permite a recompilación de corpus de adestramento para modelos de intelixencia artificial.

Os corpus proporcionados de maneira oficial por bibliotecas nacionais permiten que as coleccións de textos sirvan para crear tecnoloxía pública ao alcance de todos: un patrimonio cultural colectivo que xera un novo patrimonio colectivo, esta vez tecnolóxico. A ganancia é maior cando estes corpus institucionais si están enfocados a cumprir coas leis de propiedade intelectual, proporcionando unicamente datos abertos e textos libres de restricións de dereitos de autor, con dereitos prescritos ou licenciados. Isto, unido ao feito esperanzador de que a cantidade de datos reais necesaria para adestrar modelos de linguaxe vai reducíndose a medida que avanza a tecnoloxía , por exemplo, coa xeración de datos sintéticos ou a optimización de determinados parámetros, indica que é posible adestrar grandes modelos de texto sen infrinxir as leis de propiedade intelectual que operan en Europa .

En concreto, a Biblioteca Nacional de España está a facer un gran esforzo de dixitalización para pór os seus valiosos repositorios de texto a disposición da investigación, e en particular das tecnoloxías da linguaxe. Desde que en 2008 realizouse a primeira gran dixitalización masiva de coleccións físicas, a BNE abriu o acceso a millóns de documentos co único obxectivo de compartir e universalizar o coñecemento. En 2023, e grazas ao investimento procedente dos fondos de Recuperación, Transformación e Resiliencia da Unión Europea, a BNE impulsa un novo proxecto de preservación dixital no seu Plan Estratéxico 2023-2025 , centrada en catro eixos:

a dixitalización masiva e sistemática das coleccións,
BNELab como catalizador de innovación e reutilización de datos en ecosistemas dixitais,
alianzas e novas contornas de cooperación,
e integración e sustentabilidade tecnolóxica.

A aliñación deste catro eixos coas novas tecnoloxías de intelixencia artificial e procesamento da linguaxe natural é máis que notoria, xa que unha das principais reutilizacións de datos é o adestramento de grandes modelos de linguaxe. Tanto os rexistros bibliográficos dixitalizados como os índices de catalogación da Biblioteca son materiais de valor para a tecnoloxía do coñecemento.

Modelos de linguaxe en español

No ano 2020, e como unha iniciativa pioneira e relativamente temperá, en España presentábase MarIA , un modelo de linguaxe impulsada pola Secretaría de Estado de Dixitalización e Intelixencia Artificial e desenvolvido polo Centro Nacional de Supercomputación (BSC-CNS), a partir dos arquivos da Biblioteca Nacional de España. Neste caso, o corpus estaba composto por textos procedentes de páxinas web, que foran recompilados pola BNE desde o ano 2009 e que serviran para nutrir un modelo baseado orixinalmente en GPT-2.

Ocorreron moitas cousas entre a creación de MarIA e o anuncio no Mobile World Congress de 2024 da construción dun gran modelo fundacional de linguaxe, adestrado especificamente en español e linguas cooficiais . Este sistema será de código aberto e transparente, e unicamente utilizará no seu adestramento contido libre de dereitos. Este proxecto é pioneiro a nivel europeo, xa que busca proporcionar desde as institucións unha infraestrutura lingüística aberta, pública e accesible para as empresas. Do mesmo xeito que MarIA, o modelo desenvolverase no BSC-CNS, nun traballo conxunto coa Biblioteca Nacional de España e outros actores como a Academia Española da Lingua e a Asociación de Academias da Lingua Española.

Ademais das institucións que poden achegar coleccións lingüísticas ou bibliográficas, existen moitas máis institucións en España que poden proporcionar corpus de calidade que poden servir tamén para o adestramento de modelos en español. O Estudo sobre datos reutilizables como recursos lingüísticos, publicado en 2019 no marco do Plan de Tecnoloxías da Linguaxe, xa apuntaba a distintas fontes: as patentes e os informes técnicos da Oficina de Patentes e Marcas, tanto españolas como europeas, os dicionarios terminolóxicos do Centro de Terminoloxía, ou datos tan elementais como o padrón, do Instituto Nacional de Estatística, ou os topónimos do Instituto Xeográfico Nacional. Cando falamos de contido audiovisual, que pode ser transcrito para a súa reutilización, contamos co arquivo en vídeo de RTVE Á carta, o Arquivo Audiovisual do Congreso dos Deputados ou os arquivos das diferentes televisións autonómicas. O propio Boletín Oficial do Estado e os seus materiais asociados son unha fonte importante de información en texto que contén coñecementos amplos sobre a nosa sociedade e o seu funcionamento. Por último, en ámbitos específicos como a saúde ou a xustiza, contamos coas publicacións da Axencia Española de Medicamentos e Produtos Sanitarios, os textos de xurisprudencia do CENDOJ ou as gravacións de vistas xudiciais do Consello Xeral do Poder Xudicial.

Iniciativas europeas

En Europa non parece haber un precedente tan claro como MarIA ou o próximo modelo baseado en GPT en español, como proxectos impulsados a nivel estatal e adestrados con datos patrimoniais, procedentes de bibliotecas nacionais ou organismos oficiais.

Con todo, en Europa hai un bo traballo previo de dispoñibilidade da documentación que podería utilizarse agora para adestrar sistemas de IA de fundación europea. Un bo exemplo é o proxecto Europeana , que busca dixitalizar e facer accesible o patrimonio cultural e artístico de Europa en conxunto. É unha iniciativa colaborativa que reúne contribucións de miles de museos, bibliotecas, arquivos e galerías, proporcionando acceso gratuíto a millóns de obras de arte, fotografías, libros, pezas de música e vídeos. Europeana conta con case 25 millóns de documentos en texto, que poderían ser a base para crear modelos fundacionais multilingües ou competentes nas distintas linguas europeas.

Existen tamén iniciativas non gobernamentais, pero con impacto global, como Common Corpus , que son a proba definitiva de que é posible adestrar modelos de linguaxe con datos abertos e sen infrinxir as leis de dereitos de autor. Common Corpus liberouse en marzo de 2024, e é o conxunto de datos máis extenso creado para o adestramento de grandes modelos de linguaxe, con 500 mil millóns de palabras procedentes de distintas iniciativas de patrimonio cultural. Este corpus é multilingüe e é o máis grande ata a data en inglés, francés, neerlandés, español, alemán e italiano.

E finalmente, máis aló do texto, é posible atopar iniciativas noutros formatos como o audio, que tamén poden servir para adestrar modelos de IA. En 2022, a Biblioteca Nacional de Suecia proporcionou un corpus sonoro de máis de dous millóns de horas de gravación procedentes da radio pública local, podcasts e audiolibros. O obxectivo do proxecto era xerar un modelo baseado en IA de transcrición de audio a texto competente no idioma, que maximizase o número de falantes para conseguir un dataset dispoñible para todos, diverso e democrático.

Ata agora, na recompilación e a posta a disposición da sociedade de datos en texto era suficiente o sentido do colectivo e o patrimonio. Cos modelos de linguaxe, esta apertura consegue un beneficio maior: o de crear e manter unha tecnoloxía que achegue valor ás persoas e ás empresas, alimentada e mellorada a partir de nosas propias producións lingüísticas.

Fonte orixinal da noticia (Abre en nova xanela)

Corpus lingüísticos: o motor do coñecemento para a IA

Corpus: conxuntos de datos en texto

O problema da lexitimidade

O texto como patrimonio colectivo

Modelos de linguaxe en español

Iniciativas europeas