Os datos abertos como fonte de coñecemento para a intelixencia artificial generativa

"Noticia dispoñible unicamente con fins históricos e de hemeroteca. A información e ligazóns mostradas correspóndense cos que estaban operativos á data da súa publicación. Non se garante que continúen activos actualmente".

16 febreiro 2023

A intelixencia artificial generativa refírese a a capacidade de unha máquina para xerar contido orixinal e creativo, como imaxes, texto ou música, a partir dun conxunto de datos de entrada.

No que se refire a a xeración de texto, estes modelos son accesibles, en formato experimental, desde hai un tempo, pero comezaron a xerar interese a mediados de 2020 cando Open AI (Abre en nova xanela) , unha organización dedicada á investigación no campo da intelixencia artificial xeral , publicou o acceso ao seu modelo de linguaxe GPT-3 a través dunha API (Abre en nova xanela) .

A arquitectura de está GPT-3 composta por 175.000 millóns de parámetros, mentres que a do seu antecesor GPT-2 era de 1.500 millóns de parámetros, isto é, máis de 100 veces máis. GPT-3 representa por tanto un cambio de escala enorme xa que ademais foi adestrado cun corpus de datos moito maior e un tamaño dos tokens mucho más grande, lo que le permitió adquirir una comprensión más profunda y compleja del lenguaje humano.

A pesar de que foi en 2022 cando OpenAI anunciou a apertura de chatGPT chatGPT (Abre en nova xanela) que permite dotar dunha interface conversacional a un modelo de linguaxe baseada nunha versión mellorada de GPT-3, non foi ata os últimos dous meses cando a noticia chamou masivamente a atención do público, grazas á ampla cobertura mediática que trata de dar resposta ao incipiente interese xeral.

E é que, ChatGPT non só é capaz de xerar texto a partir dun conxunto de caracteres ( prompt ) como GPT-3 , senón que responde a preguntas en linguaxe natural en varios idiomas que inclúen inglés, español, francés, alemán, italiano ou portugués. É precisamente este cambio na interface de acceso, pasando de ser unha API a un chatbot , o que o converteu á IA en accesible para calquera tipo de usuario.

Tanto é así que máis dun millón de persoas rexistráronse para usalo en tan só cinco días, o que motivou a multiplicación de exemplos nos que chatGPT produce código de software, ensayos de nivel universitario, poemas e incluso chistes. Eso sin tener en cuenta que ha sido capaz de sacar adelante un exame de selectividade de Historia (Abre en nova xanela) ou de aprobar aprobar o exame final do MBA da prestixiosa Wharton School .

Todo isto puxo á IA generativa no centro dunha nova onda de innovación tecnolóxica que promete revolucionar a forma en que nos relacionamos con internet e a web a través de procuras vitaminadas por IA ou navegadores capaces de resumir o resultado destas procuras.

Os datos abertos

GPT-3 , do mesmo xeito que outros modelos que foron xerados coas técnicas descritas en a publicación científica orixinal de GTP-3 (Abre en nova xanela) , é un modelo de linguaxe pre-adestrado, o que significa que foi adestrado cun gran conxunto de datos, en total uns 45 terabytes de datos de texto. Segundo leste paper , el conjunto de datos de entrenamiento estaba compuesto en un 60% por datos obtenidos directamente de internet en los que están contenidos millones de documentos de todo tipo, un 22% del corpus WebText2 (Abre en nova xanela) construído a partir de , Reddit e o resto cunha combinación de libros (16%) e Wikipedia (3%).

Con todo, non se sabe cantos datos abertos utiliza GPT-3 exactamente, xa que OpenAI non proporciona detalles máis específicos sobre o conxunto de datos utilizado para adestrar o modelo. O que si podemos facer son algunhas preguntas ao propio chatGPT que nos axuden a extraer interesantes conclusións sobre o uso que fai dos datos abertos.

Están a realizarse probas no chatGPT e vemos como os datos abertos si poden contribuír á evolución tecnolóxica e, polo tanto, a mellorar o funcionamento da intelixencia artificial de Open AI. Con todo, dado o estado de madurez actual da mesma, aínda é pronto para ver un emprego óptimo destes, á hora de dar resposta a preguntas máis complexas. (veáse exemplos na fonte orixinal da noticia).

Por tanto, para que un modelo de intelixencia artificial generativa sexa eficaz, é necesario que conte cunha gran cantidade de datos de alta calidade e diversidade, e os datos abertos son unha fonte de coñecemento valiosa para este fin.

Probablemente, en futuras versiones del modelo, podamos ver cómo los datos abiertos ya adquieren un peso mucho más importante en la composición del corpus de entrenamiento, logrando conseguir una mejora importante en la calidad de las respuestas de tipo factual.

Intelixencia artificial generativa (Abre en nova xanela)

Fonte orixinal da noticia (Abre en nova xanela)

Información e datos do sector público