Os datos abertos como fonte de coñecemento para a intelixencia artificial generativa

"Noticia dispoñible unicamente con fins históricos e de hemeroteca. A información e ligazóns mostradas correspóndense cos que estaban operativos á data da súa publicación. Non se garante que continúen activos actualmente".

16 febreiro 2023

A intelixencia artificial generativa refírese a a capacidade de unha máquina para xerar contido orixinal e creativo, como imaxes, texto ou música, a partir dun conxunto de datos de entrada.

No que se refire a a xeración de texto, estes modelos son accesibles, en formato experimental, desde hai un tempo, pero comezaron a xerar interese a mediados de 2020 cando Open AI (Abre en nova xanela) , unha organización dedicada á investigación no campo da intelixencia artificial xeral , publicou o acceso ao seu modelo de linguaxe GPT-3 a través dunha API (Abre en nova xanela) .

A arquitectura de está GPT-3 composta por 175.000 millóns de parámetros, mentres que a do seu antecesor GPT-2 era de 1.500 millóns de parámetros, isto é, máis de 100 veces máis. GPT-3 representa por tanto un cambio de escala enorme xa que ademais foi adestrado cun corpus de datos moito maior e un tamaño dos tokens moito máis grande, o que lle permitiu adquirir unha comprensión máis profunda e complexa da linguaxe humana.

A pesar de que foi en 2022 cando OpenAI anunciou a apertura de chatGPT chatGPT (Abre en nova xanela) que permite dotar dunha interface conversacional a un modelo de linguaxe baseada nunha versión mellorada de GPT-3, non foi ata os últimos dous meses cando a noticia chamou masivamente a atención do público, grazas á ampla cobertura mediática que trata de dar resposta ao incipiente interese xeral.

E é que, ChatGPT non só é capaz de xerar texto a partir dun conxunto de caracteres ( prompt ) como GPT-3 , senón que responde a preguntas en linguaxe natural en varios idiomas que inclúen inglés, español, francés, alemán, italiano ou portugués. É precisamente este cambio na interface de acceso, pasando de ser unha API a un chatbot , o que o converteu á IA en accesible para calquera tipo de usuario.

Tanto é así que máis dun millón de persoas rexistráronse para usalo en tan só cinco días, o que motivou a multiplicación de exemplos nos que chatGPT produce código de software, ensaios de nivel universitario, poemas e mesmo chistes. Iso sen ter en conta que foi capaz de sacar adiante un exame de selectividade de Historia (Abre en nova xanela) ou de aprobar aprobar o exame final do MBA da prestixiosa Wharton School .

Todo isto puxo á IA generativa no centro dunha nova onda de innovación tecnolóxica que promete revolucionar a forma en que nos relacionamos con internet e a web a través de procuras vitaminadas por IA ou navegadores capaces de resumir o resultado destas procuras.

Os datos abertos

GPT-3 , do mesmo xeito que outros modelos que foron xerados coas técnicas descritas en a publicación científica orixinal de GTP-3 (Abre en nova xanela) , é un modelo de linguaxe pre-adestrado, o que significa que foi adestrado cun gran conxunto de datos, en total uns 45 terabytes de datos de texto. Segundo leste paper , o conxunto de datos de adestramento estaba composto nun 60% por datos obtidos directamente de internet nos que están contidos millóns de documentos de todo tipo, un 22% do corpus WebText2 (Abre en nova xanela) construído a partir de , Reddit e o resto cunha combinación de libros (16%) e Wikipedia (3%).

Con todo, non se sabe cantos datos abertos utiliza GPT-3 exactamente, xa que OpenAI no proporciona detalles más específicos sobre el conjunto de datos utilizado para entrenar el modelo. Lo que sí podemos hacer son algunas preguntas al propio chatGPT que nos ayuden a extraer interesantes conclusiones sobre el uso que hace de los datos abiertos.

Están a realizarse probas no chatGPT e vemos como os datos abertos si poden contribuír á evolución tecnolóxica e, polo tanto, a mellorar o funcionamento da intelixencia artificial de Open AI. Con todo, dado o estado de madurez actual da mesma, aínda é pronto para ver un emprego óptimo destes, á hora de dar resposta a preguntas máis complexas. (veáse exemplos na fonte orixinal da noticia).

Por tanto, para que un modelo de intelixencia artificial generativa sexa eficaz, é necesario que conte cunha gran cantidade de datos de alta calidade e diversidade, e os datos abertos son unha fonte de coñecemento valiosa para este fin.

Probablemente, en futuras versións do modelo, podamos ver como os datos abertos xa adquiren un peso moito máis importante na composición do corpus de adestramento, logrando conseguir unha mellora importante na calidade das respostas de tipo factual.

Intelixencia artificial generativa (Abre en nova xanela)

Fonte orixinal da noticia (Abre en nova xanela)

Información e datos do sector público