accesskey_mod_content

Retrieval Augmented Generation: A chave que abre a porta da precisión aos modelos da linguaxe

  • Escoitar
  • Copiar
  • Imprimir PDF
  • Compartir

25 xaneiro 2024

Ensinar aos computadores a entender como falan e escriben os humanos é un vello desafío no campo da intelixencia artificial, coñecido como procesamento de linguaxe natural (PLN). Con todo, desde hai pouco máis de dous anos, estamos a asistir á caída deste antigo bastión con a chegada dos modelos grandes da linguaxe (LLM) e as interfaces conversacionales.

Introdución

En 2020, Patrick Lewis, un novo doutor no campo dos modelos da linguaxe que traballaba na antiga Facebook AI Research (agora Meta AI Research) publica xunto a Ethan Perez da Universidade de Nova York un artigo titulado:  Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks(Abre en nova xanela)  no que explicaban unha técnica para facer máis precisos e concretos os modelos da linguaxe actuais. O artigo é complexo para o público en xeral. Con todo,  no seu blogue(Abre en nova xanela) , varios dos autores do artigo explican de maneira máis alcanzable como funciona a técnica de o  RAG . Neste post imos tratar de explicalo da forma máis sinxela posible. 

Os modelos grandes da linguaxe ou Large Language Models son modelos de intelixencia artificial que se adestran utilizando algoritmos de Deep Learning sobre conxuntos enormes de información xerada por humanos. Desta maneira, unha vez adestrados, aprenderon a forma na que os humanos utilizamos a palabra falada e escrita, así que son capaces de ofrecernos respostas xerais e con un patrón moi humano ás preguntas que lles facemos. Con todo, se buscamos respostas precisas nun contexto determinado, os  LLM  por si sós non proporcionarán respostas específicas ou haberá unha alta probabilidade de que alucinen e invéntense completamente a resposta. Que os  LLM  alucinen significa que xeran texto inexacto, sen sentido ou desconectado.  Este efecto expón riscos e desafíos potenciais para as organizacións que utilizan estes modelos fose da contorna doméstica ou cotiá do uso persoal de os LLM(Abre en nova xanela) . A prevalencia da alucinación en os LLMs, estimada nun 15% ou 20% para  ChatGPT , pode ter implicacións profundas para a reputación das empresas e a fiabilidade dos sistemas de .. IA

Que é unha RAG?

Precisamente, a técnicas RAG desenvolvéronse para mellorar a calidade das respostas en contextos específicos, por exemplo, nunha disciplina concreta ou con base en repositorios de coñecemento privados como bases de datos de empresas.  

RAG  é unha técnica extra dentro dos marcos de traballo da intelixencia artificial, cuxo obxectivo é recuperar feitos dunha base de coñecementos externa para garantir que os modelos de linguaxe devolven información precisa e actualizada. Un sistema RAG típico (ver imágen) inclúe un  LLM , unha base de datos vectorial (para almacenar convenientemente os datos externos) e unha serie de comandos ou preguntas. É dicir, de forma simplificada, cando facemos unha pregunta en linguaxe natural a un asistente como ChatGPT, o que ocorre entre a pregunta e a resposta é algo como: 

  1. O usuario realiza a consulta, tamén denominada tecnicamente prompt. 
  2. A RAG encárgase de enriquecer ese prompt ou pregunta con datos e feitos que obtivo dunha base de datos externa que contén información relevante relativa á pregunta que realizou o usuario. A esta etapa denomínaselle retrieval. 
  3. A RAG encárgase de enviar o prompt do usuario enriquecido ou aumentado a o LLM que se encarga de xerar unha resposta en linguaxe natural aproveitando toda a potencia da linguaxe humana que aprendeu cos seus datos de adestramento xenéricos, pero tamén cos datos específicos proporcionados na etapa de retrieval. 

Gráfico que ilustra o proceso RAG, explicado no texto anterior

Entendendo RAG con exemplos

Poñamos un exemplo concreto. Imaxina que estás a tentar responder unha pregunta sobre dinosauros. Un  LLM  xeneralista pode inventarse unha resposta perfectamente plausible, de forma que unha persoa non experta na materia non a diferenza dunha resposta con base científica. Pola contra, co uso de  RAG , o  LLM  buscaría nunha base de datos de información sobre dinosauros e recuperaría os feitos máis relevantes para xerar unha resposta completa.  

O mesmo ocorría se buscamos unha información concreta en unha base de datos privada. Por exemplo, pensemos nun responsable de recursos humanos dunha empresa. Este desexa recuperar información resumida e agregada sobre un ou varios empregados cuxos rexistros se atopan en diferentes bases de datos da empresa. Pensemos que podemos estar a tratar de obter información a partir de táboas salariais, enquisas de satisfacción, rexistros laborais, etc. Un LLM é de gran utilidade para xerar unha resposta cun patrón humano. Con todo, é imposible que ofreza datos coherentes e precisos posto que nunca foi adestrado con esa información debido ao seu carácter privado. Neste caso, RAG asiste a o LLM para proporcionarlle datos e contexto específico co que poder devolver a resposta adecuada. 

Da mesma forma, un LLM complementado con RAG sobre rexistros médicos podería ser un gran asistente no ámbito clínico. Tamén os analistas financeiros beneficiaríanse dun asistente vinculado a datos actualizados do mercado de valores. Practicamente, calquera caso de uso benefíciase da técnicas RAG para enriquecer as capacidades de os LLM con datos de contexto específicos. 

  • Información e datos do sector público