Os modelos de linguaxe atópanse no epicentro do cambio de paradigma tecnolóxico que está a protagonizar a intelixencia artificial (IA) generativa nos últimos dous anos. Desde as ferramentas coas que interaccionamos en linguaxe natural para xerar texto, imaxes ou vídeos e que utilizamos para crear contido creativo , deseñar prototipos ou producir material educativo , ata aplicacións máis complexas en investigación e desenvolvemento que mesmo contribuíron de forma decisiva á consecución de o Premio Nobel de Química de 2024 , os modelos de linguaxe están a demostrar a súa utilidade nunha gran variedade de aplicacións, que por outra banda, aínda estamos a explorar.
Desde que en 2017 Google publicou o influente artigo " Attention is all you need ", onde se describiu a arquitectura de os Transformers , tecnoloxía que sustenta as novas capacidades que OpenAI popularizou a finais de 2022 co lanzamento de ChatGPT, a evolución dos modelos de linguaxe foi máis que vertixinosa. En apenas dous anos, pasamos de modelos centrados unicamente na xeración de texto a versións multimodales que integran a interacción e xeración de texto, imaxes e audio.
Esta rápida evolución deu lugar a dúas categorías de modelos de linguaxe: os SLM (Small Language Models), máis lixeiros e eficientes, e os LLM (Large Language Models), máis pesados e potentes . Lonxe de consideralos competidores, debemos analizar os SLM e LLM como tecnoloxías complementarias. Mentres os LLM ofrecen capacidades xerais de procesamento e xeración de contido, os SLM poden proporcionar soporte a solucións máis áxiles e especializadas para necesidades concretas. Con todo, ambos comparten un elemento esencial: dependen de grandes volumes de datos para o seu adestramento e no corazón das súas capacidades están os datos abertos, que son parte do combustible que se utiliza para adestrar estes modelos de linguaxe nos que se basean as aplicacións de IA generativa .
LLM: potencia impulsada por datos masivos
Os LLM son modelos de linguaxe a gran escala que contan con miles de millóns, e mesmo billóns, de parámetros. Estes parámetros son as unidades matemáticas que permiten ao modelo identificar e aprender patróns nos datos de adestramento, o que lles proporciona unha extraordinaria capacidade para xerar texto (ou outros formatos) coherente e adaptado ao contexto dos usuarios. Estes modelos, como a familia GPT de OpenAI , Gemini de Google ou Chama de Meta , adéstranse con inmensos volumes de datos e son capaces de realizar tarefas complexas, algunhas mesmo para as que non foron explicitamente adestrados.
Deste xeito, os LLM son capaces de realizar tarefas como a xeración de contido orixinal, a resposta a preguntas con información relevante e ben estruturada ou a xeración de código de software, todas elas con un nivel de competencia igual ou superior ao dos humanos especializados nas este tarefas e sempre mantendo conversacións complexas e fluídas.
Os LLM baséanse en cantidades masivas de datos para alcanzar o seu nivel de desempeño actual: desde repositorios como Common Crawl , que recompila datos de millóns de páxinas web , ata fontes estruturadas como Wikipedia ou conxuntos especializados como PubMed Open Access no campo biomédico. Sen acceso a estes corpus masivos de datos abertos, a capacidade destes modelos para xeneralizar e adaptarse a múltiples tarefas sería moito máis limitada.
Con todo, a medida que os LLM continúan evolucionando, a necesidade de datos abertos aumenta para conseguir progresos específicos como:
- Maior diversidade lingüística e cultural: aínda que os LLM actuais manexan múltiples idiomas, en xeral están dominados por datos en inglés e outros idiomas maioritarios. A falta de datos abertos noutras linguas limita a capacidade de estes modelos para ser verdadeiramente inclusivos e diversos . Máis datos abertos en idiomas diversos garantirían que os LLM poidan ser útiles para todas as comunidades, preservando ao mesmo tempo a riqueza cultural e lingüística do mundo.
- Redución de rumbos: os LLM, como calquera modelo de IA, son propensos a reflectir os rumbos presentes nos datos cos que se adestran. Isto, en ocasións, xera respostas que perpetúan estereotipos ou desigualdades. Incorporar máis datos abertos coidadosamente seleccionados, especialmente de fontes que promovan a diversidade e a igualdade, é fundamental para construír modelos que representen de maneira xusta e equitativa a diferentes grupos sociais.
- Actualización constante: os datos na web e noutros recursos abertos cambian constantemente. Sen acceso a datos actualizados, os LLM xeran respostas obsoletas moi rapidamente. Por iso, incrementar a dispoñibilidade de datos abertos frescos e relevantes permitiría a os LLM manterse aliñados coa actualidade .
- Adestramento máis accesible: a medida que os LLM crecen en tamaño e capacidade, tamén o fai o custo de adestralos e afinalos. Os datos abertos permiten que desenvolvedores independentes, universidades e pequenas empresas adestren e afinen as súas propios modelos sen necesidade de custosas adquisicións de datos. Deste xeito democratízase o acceso á intelixencia artificial e foméntase a innovación global.
Para solucionar algúns destes retos, na nova Estratexia de Intelixencia Artificial 2024 incluíronse medidas destinadas a xerar modelos e corpus en castelán e linguas cooficiais, incluíndo tamén o desenvolvemento de conxuntos de datos de avaliación que consideran a avaliación ética.
SLM: eficiencia optimizada con datos específicos
Por outra banda, os SLM emerxeron como unha alternativa eficiente e especializada que utiliza un número máis reducido de parámetros (xeralmente en millóns) e que están deseñados para ser lixeiros e rápidos. Aínda que non alcanzan a versatilidade e competencia de os LLM en tarefas complexas, os SLM destacan pola súa eficiencia computacional, rapidez de implementación e capacidade para especializarse en dominios concretos.
Para iso, os SLM tamén dependen de datos abertos, pero neste caso, a calidade e relevancia dos conxuntos de datos son máis importantes que o seu volume, por iso os retos que lles afectan están máis relacionados coa limpeza e especialización dos datos. Estes modelos requiren conxuntos que estean coidadosamente seleccionados e adaptados ao dominio específico para o que se van a utilizar, xa que calquera erro, rumbo ou falta de representatividade nos datos pode ter un impacto moito maior no seu desempeño. Ademais, debido ao seu enfoque en tarefas especializadas, os SLM enfrontan desafíos adicionais relacionados coa accesibilidade de datos abertos en campos específicos. Por exemplo, en sectores como o medicamento, a enxeñaría ou o dereito, os datos abertos relevantes adoitan estar protexidos por restricións legais e/ou éticas, o que dificulta o seu uso para adestrar modelos de linguaxe.
Os SLM adéstranse con datos coidadosamente seleccionados e aliñados co dominio no que se utilizarán, o que lles permite superar a os LLM en precisión e especificidade en tarefas concretas, por exemplo:
- Autocompletado de textos: un SLM para autocompletado en español pode adestrarse cunha selección de libros, textos educativos ou corpus como os que se impulsarán na xa mencionada Estratexia de IA , sendo moito máis eficiente que un LLM de propósito xeral para esta tarefa.
- Consultas xurídicas: un SLM adestrado con conxuntos de datos xurídicos abertos poden proporcionar respostas precisas e contextualizadas a preguntas legais ou procesar documentos contractuais de forma máis eficaz que un LLM.
- Educación personalizada: no sector educativo, SLM adestrados con datos abertos de recursos didácticos poden xerar explicacións específicas, exercicios personalizados ou mesmo avaliacións automáticas, adaptadas ao nivel e as necesidades do estudante.
- Diagnóstico médico: un SLM adestrado con c onjuntos de datos médicos , como resumos clínicos ou publicacións abertas, pode asistir a médicos en tarefas como a identificación de diagnósticos preliminares, a interpretación de imaxes médicas mediante descricións textuais ou a análise de estudos clínicos.
Desafíos e consideracións éticas
Non debemos esquecer que, a pesar dos beneficios, o uso de datos abertos en modelos de linguaxe presenta desafíos significativos. Un dos principais retos é, como xa mencionamos, garantir a calidade e neutralidade dos datos para que estean libres de rumbos, xa que estes poden amplificarse nos modelos, perpetuando desigualdades ou prexuízos.
Aínda que un conxunto de datos sexa tecnicamente aberto, a súa utilización en modelos de intelixencia artificial sempre expón algunhas implicacións éticas. Por exemplo, é necesario evitar que información persoal ou sensible fíltrese ou poida deducirse dos resultados xerados polos modelos, xa que isto podería causar danos a a privacidade das persoas .
Tamén debe terse en conta a cuestión de a atribución e propiedade intelectual dos datos. O uso de datos abertos en modelos comerciais debe abordar como se recoñece e compensa adecuadamente aos creadores orixinais dos datos para que sigan existindo incentivos aos creadores.
Os datos abertos son o motor que impulsa as asombrosas capacidades dos modelos de linguaxe, tanto no caso de os SLM como de os LLM. Mentres que os SLM destacan pola súa eficiencia e accesibilidade, os LLM abren portas a aplicacións avanzadas que non fai moito parecíannos imposibles. Con todo, o camiño cara ao desenvolvemento de modelos máis capaces, pero tamén máis sustentables e representativos, depende en gran medida de como xestionemos e aproveitemos os datos abertos.