accesskey_mod_content

Os datos abertos como fonte de coñecemento para a intelixencia artificial generativa

  • Escoitar
  • Copiar
  • Imprimir PDF
  • Compartir

"Noticia dispoñible unicamente con fins históricos e de hemeroteca. A información e ligazóns mostradas correspóndense cos que estaban operativos á data da súa publicación. Non se garante que continúen activos actualmente".

16 febreiro 2023

A intelixencia artificial generativa refírese a a capacidade de unha máquina para xerar contido orixinal e creativo, como imaxes, texto ou música, a partir dun conxunto de datos de entrada.

No que se refire a a xeración de texto, estes modelos son accesibles, en formato experimental, desde hai un tempo, pero comezaron a xerar interese a mediados de 2020 cando Open AI(Abre en nova xanela) , una organización dedicada a la investigación en el campo de la intelixencia artificial xeral(Abre en nova xanela) , publicou o acceso ao seu modelo de linguaxe GPT-3 a través dunha API (Abre en nova xanela) .

A arquitectura de está GPT-3 composta por 175.000 millóns de parámetros, mentres que a do seu antecesor GPT-2 era de 1.500 millóns de parámetros, isto é, máis de 100 veces máis. GPT-3 representa por tanto un cambio de escala enorme ya que además fue entrenado con un corpus de datos mucho mayor y un tamaño de los tokens moito máis grande, o que lle permitiu adquirir unha comprensión máis profunda e complexa da linguaxe humana.

A pesar de que foi en 2022 cando OpenAI anunciou a apertura de chatGPT chatGPT(Abre en nova xanela) que permite dotar dunha interface conversacional a un modelo de linguaxe baseada nunha versión mellorada de GPT-3, non foi ata os últimos dous meses cando a noticia chamou masivamente a atención do público, grazas á ampla cobertura mediática que trata de dar resposta ao incipiente interese xeral.

E é que, ChatGPT no sólo es capaz de generar texto a partir de un conjunto de caracteres ( prompt ) como GPT-3 , senón que responde a preguntas en linguaxe natural en varios idiomas que inclúen inglés, español, francés, alemán, italiano ou portugués. É precisamente este cambio na interface de acceso, pasando de ser unha API a un chatbot , o que o converteu á IA en accesible para calquera tipo de usuario.

Tanto é así que máis dun millón de persoas rexistráronse para usalo en tan só cinco días, o que motivou a multiplicación de exemplos nos que chatGPT produce código de software, ensayos de nivel universitario, poemas e incluso chistes. Eso sin tener en cuenta que ha sido capaz de sacar adelante un exame de selectividade de Historia(Abre en nova xanela) ou de aprobar aprobar o exame final do MBA da prestixiosa Wharton School(Abre en nova xanela) .

Todo isto puxo á IA generativa no centro dunha nova onda de innovación tecnolóxica que promete revolucionar a forma en que nos relacionamos con internet e a web a través de procuras vitaminadas por  IA ou navegadores capaces de resumir o resultado destas procuras.

Os datos abertos

GPT-3 , do mesmo xeito que outros modelos que foron xerados coas técnicas descritas en a  publicación científica orixinal de GTP-3(Abre en nova xanela) , é un modelo de linguaxe pre-adestrado, o que significa que foi adestrado cun gran conxunto de datos, en total uns 45 terabytes de datos de texto. Segundo leste paper , el conjunto de datos de entrenamiento estaba compuesto en un 60% por datos obtenidos directamente de internet en los que están contenidos millones de documentos de todo tipo, un 22% del corpus WebText2(Abre en nova xanela) construído a partir de , Reddit y el resto con una combinación de libros (16%) y Wikipedia (3%).

Con todo, non se sabe cantos datos abertos utiliza GPT-3 exactamente, xa que OpenAI no proporciona detalles más específicos sobre el conjunto de datos utilizado para entrenar el modelo. Lo que sí podemos hacer son algunas preguntas al propio chatGPT que nos axuden a extraer interesantes conclusións sobre o uso que fai dos datos abertos.

Están a realizarse probas no chatGPT e vemos como os datos abertos si poden contribuír á evolución tecnolóxica e, polo tanto, a mellorar o funcionamento da intelixencia artificial de Open AI. Con todo, dado o estado de madurez actual da mesma, aínda é pronto para ver un emprego óptimo destes, á hora de dar resposta a preguntas máis complexas. (veáse exemplos na fonte orixinal da noticia).

Por lo tanto, para que un modelo de inteligencia artificial generativa sea eficaz, es necesario que cuente con una gran cantidad de datos de alta calidad y diversidad, y los datos abiertos son una fuente de conocimiento valiosa para este fin.

Probablemente, en futuras versiones del modelo, podamos ver cómo los datos abiertos ya adquieren un peso mucho más importante en la composición del corpus de entrenamiento, logrando conseguir una mejora importante en la calidad de las respuestas de tipo factual.

Intelixencia artificial generativa(Abre en nova xanela)

Fonte orixinal da noticia(Abre en nova xanela)

  • Información e datos do sector público