accesskey_mod_content

Retrieval Augmented Generation: La clau que obre la porta de la precisió als models del llenguatge

  • Escoltar
  • Copiar
  • Imprimir PDF
  • Compartir

25 gener 2024

Ensenyar als ordinadors a entendre com parlen i escriuen els humans és un vell desafiament en el camp de la intel·ligència artificial, conegut com a processament de llenguatge natural (PLN). No obstant això, des de fa poc més de dos anys, estem assistint a la caiguda d'aquest antic bastió amb la arribada dels models grans del llenguatge (LLM) i els interfícies conversacionals.

Introducció

En 2020, Patrick Lewis, un jove doctor en el camp dels models del llenguatge que treballava en l'antiga Facebook AI Research (ara Fiqui AI Research) publica al costat d'Ethan Perez de la Universitat de Nova York un article titulat:  Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks(Obre en nova finestra)  en el qual explicaven una tècnica per fer més precisos i concrets els models del llenguatge actuals. L'article és complex per al públic en general. No obstant això,  en el seu blog(Obre en nova finestra) , varis dels autors de l'article expliquen de manera més assequible com funciona la tècnica de el  RAG . En aquest post anem a tractar d'explicar-ho de la forma més senzilla possible. 

Els models grans del llenguatge o Large Language Models són models d'intel·ligència artificial que s'entrenen utilitzant algorismes de Deep Learning sobre conjunts enormes d'informació generada per humans. D'aquesta manera, una vegada entrenats, han après la forma en la qual els humans utilitzem la paraula parlada i escrita, així que són capaces d'oferir-nos respostes generals i amb un patró molt humà a les preguntes que els fem. No obstant això, si cerquem respostes precises en un context determinat, els  LLM  per si solos no proporcionaran respostes específiques o hi haurà una alta probabilitat que alucinen i s'inventin completament la resposta. Que els  LLM  alucinen significa que generen text inexacte, sense sentit o desconnectat.  Aquest efecte planteja riscos i desafiaments potencials per a les organitzacions que utilitzen aquests models fos de l'entorn domèstic o quotidià de l'ús personal dels LLM(Obre en nova finestra) . La prevalença de l'al·lucinació en els LLMs, estimada en un 15% o 20% para  ChatGPT , pot tenir implicacions profundes per a la reputació de les empreses i la fiabilitat dels sistemes de IA .

Què és un RAG?

Precisament, les tècniques RAG s'han desenvolupat per millorar la qualitat de les respostes en contextos específics, com per exemple, en una disciplina concreta o sobre la base de repositoris de coneixement privats com a bases de dades d'empreses.  

RAG  és una tècnica extra dins dels marcs de treball de la intel·ligència artificial, que el seu objectiu és recuperar fets d'una base de coneixements externa per garantir que els models de llenguatge retornen informació precisa i actualitzada. Un sistema RAG típic (veure imágen) inclou un  LLM , una base de dades vectorial (per emmagatzemar convenientment les dades externes) i una sèrie de comandos o preguntes. És a dir, de forma simplificada, quan fem una pregunta en llenguatge natural a un assistent com ChatGPT, la qual cosa ocorre entre la pregunta i la resposta és alguna cosa com: 

  1. L'usuari realitza la consulta, també denominada tècnicament prompt. 
  2. El RAG s'encarrega de enriquir aquest prompt o pregunta amb dades i fets que ha obtingut d'una base de dades externa que conté informació rellevant relativa a la pregunta que ha realitzat l'usuari. A aquesta etapa se li denomina retrieval. 
  3. El RAG s'encarrega d'enviar el prompt de l'usuari enriquit o augmentat a el LLM que s'encarrega de generar una resposta en llenguatge natural aprofitant tota la potència del llenguatge humà que ha après amb les seves dades d'entrenament genèrics, però també amb les dades específiques proporcionades en l'etapa de retrieval. 

Gràfic que il·lustra el procés RAG, explicat en el text anterior

Entenent RAG amb exemples

Posem un exemple concret. Imagina que estàs intentant respondre una pregunta sobre dinosaures. Un  LLM  generalista pot inventar-se una resposta perfectament plausible, de manera que una persona no experta en la matèria no la diferència d'una resposta amb base científica. Per contra, amb l'ús de  RAG , el  LLM  cercaria en una base de dades d'informació sobre dinosaures i recuperaria els fets més rellevants per generar una resposta completa.  

El mateix ocorria si cerquem una informació concreta en una base de dades privada. Per exemple, pensem en un responsable de recursos humans d'una empresa. Aquest desitja recuperar informació resumida i agregada sobre un o diversos empleats els registres dels quals es troben en diferents bases de dades de l'empresa. Pensem que podem estar tractant d'obtenir informació a partir de taules salarials, enquestes de satisfacció, registres laborals, etc. Un LLM és de gran utilitat per generar una resposta amb un patró humà. No obstant això, és impossible que ofereixi dades coherents i precisos lloc que mai ha estat entrenat amb aquesta informació a causa del seu caràcter privat. En aquest cas, RAG vas agafar a el LLM per proporcionar-li dades i context específic amb el qual poder retornar la resposta adequada. 

De la mateixa forma, un LLM complementat amb RAG sobre registres mèdics podria ser un gran assistent en l'àmbit clínic. També els analistes financers es beneficiarien d'un assistent vinculat a dades actualitzades del mercat de valors. Pràcticament, qualsevol cas d'ús es beneficia de les tècniques RAG per enriquir les capacitats dels LLM amb dades de context específics. 

  • Informació i dades del sector públic