accesskey_mod_content

La Oficina Europea de IA publica la nueva plantilla para documentar los datos de entrenamiento de modelos de propósito general

  • Escuchar
  • Imprimir PDF
  • Compartir

14 octubre 2025

Ante la diversidad de formatos y el volumen de datos, la Oficina Europea de IA ha publicado la Plantilla de Resumen Público de los Datos de Entrenamiento para dotar de un formato estandarizado a los proveedores

La Inteligencia Artificial (IA) está transformando la sociedad, la economía y los servicios públicos a una velocidad sin precedentes. Esta revolución trae enormes oportunidades, pero también desafíos relacionados con la ética, la seguridad y la protección de derechos fundamentales. Consciente de ello, la Unión Europea aprobó la  Ley de Inteligencia Artificial (AI Act)(Abre en nueva ventana) , en vigor desde el 1 de agosto de 2024, que establece un marco armonizado y pionero para el desarrollo, la comercialización y el uso de sistemas de IA en el mercado único, fomentando la innovación mientras protege a la ciudadanía.

Un ámbito especialmente relevante de esta normativa son los  modelos de IA de propósito general (GPAI)(Abre en nueva ventana) , como los grandes modelos de lenguaje (LLM) o los modelos multimodales, que se entrenan con enormes volúmenes de datos de muy diversa procedencia (texto, imágenes y vídeo, audio e incluso datos generados por usuarios). Esta realidad plantea retos críticos en propiedad intelectual, protección de datos y transparencia sobre el origen y el tratamiento de la información.

Para afrontarlos, la Comisión Europea, a través de la Oficina Europea de IA, ha publicado la  Plantilla de Resumen Público de los Datos de Entrenamiento(Abre en nueva ventana) : un formato estandarizado que los proveedores deberán completar y publicar para  resumir información clave sobre los datos usados en el entrenamiento(Abre en nueva ventana) . A partir del 2 de agosto de 2025, todo modelo de propósito general que se comercialice o distribuya en la UE deberá ir acompañado de este resumen; los modelos ya presentes en el mercado disponen hasta el 2 de agosto de 2027 para adaptarse. Esta medida materializa el principio de transparencia de la AI Act y pretende arrojar luz sobre las “cajas negras” de la IA.

En este artículo te contamos las claves de esta plantilla: desde sus objetivos y estructura, hasta información sobre plazos, sanciones y próximos pasos.

Objetivos y relevancia de la plantilla

Los modelos de IA de propósito general se entrenan con datos de muy diversa procedencia y modalidad, como:

  • Texto: libros, artículos científicos, prensa o redes sociales.
  • Imágenes y vídeos: contenidos digitales de Internet y colecciones visuales.
  • Audio: grabaciones, pódcast, programas de radio o conversaciones.
  • Datos de usuarios: información generada en la interacción con el propio modelo o con otros servicios del proveedor.

Este proceso de recopilación masiva de datos suele ser opaco, lo que genera preocupación entre titulares de derechos, usuarios, reguladores y la sociedad en su conjunto. Sin transparencia, resulta difícil evaluar si los datos se han obtenido de forma legal, si incluyen información personal no autorizada o si representan adecuadamente la diversidad cultural y lingüística de la Unión Europea.

El  Considerando 107 de la AI Act(Abre en nueva ventana)  establece que el objetivo principal de esta plantilla es incrementar la transparencia y facilitar el ejercicio y la protección de derechos. Entre los beneficios que aporta destacan:

  1. Protección de la propiedad intelectual: permite que autores, editores y demás titulares de derechos identifiquen si sus obras han sido utilizadas durante el entrenamiento, facilitando la defensa de sus derechos y un uso justo de sus contenidos.

  2. Salvaguarda de la privacidad: ayuda a detectar si se han empleado datos personales, aportando información útil para que las personas afectadas puedan ejercer sus derechos conforme al  Reglamento General de Protección de Datos (RGPD)(Abre en nueva ventana)  y otras normas del mismo ámbito.

  3. Prevención de sesgos y discriminación: proporciona información sobre la diversidad lingüística y cultural de las fuentes utilizadas, clave para evaluar y mitigar sesgos que puedan generar discriminaciones.

  4. Fomento de la competencia y la investigación: reduce los efectos de “caja negra” y facilita el escrutinio académico, al tiempo que ayuda a otras empresas a comprender mejor la procedencia de los datos, favoreciendo mercados más abiertos y competitivos.

En definitiva, esta plantilla no es solo un requisito legal, sino una herramienta para generar confianza en la inteligencia artificial, creando un ecosistema en el que la innovación tecnológica y la protección de derechos se refuercen mutuamente.

Estructura de la plantilla

La plantilla,  publicada oficialmente(Abre en nueva ventana)  el 24 de julio de 2025 tras una consulta pública con más de 430 organizaciones participantes, ha sido diseñada para que la información se presente de forma clara, homogénea y comprensible, tanto para especialistas como para la ciudadanía.

Se compone de tres secciones principales, que abarcan desde la identificación básica del modelo hasta los aspectos legales relacionados con el tratamiento de los datos.

1. Información general

Proporciona una visión global sobre el proveedor, el modelo y las características generales de los datos de entrenamiento:

  • Identificación del proveedor, como nombre y datos de contacto.
  • Identificación del modelo y sus versiones, incluyendo dependencias si se trata de una modificación (fine-tuning) de otro modelo.
  • Fecha de puesta en el mercado del modelo en la UE.
  • Modalidades de datos utilizadas (texto, imagen, audio, vídeo u otras).
  • Tamaño aproximado de los datos por modalidad, expresado en rangos amplios (por ejemplo, menos de 1.000 millones de tokens, entre 1.000 millones y 10 billones, más de 10 billones).
  • Cobertura lingüística, con especial atención a las lenguas oficiales de la Unión Europea.

Esta sección ofrece un nivel de detalle suficiente para comprender la magnitud y naturaleza del entrenamiento, sin revelar secretos comerciales.

2. Lista de fuentes de datos

Es el núcleo de la plantilla, donde se detalla la procedencia de los datos de entrenamiento. Está organizada en seis categorías principales, además de una categoría residual (Otros).

  • 2.1. Conjuntos de datos públicos:

    • Datos disponibles gratuitamente y descargables como un todo o en bloques (p. ej., portales de datos abiertos, Common Crawl, repositorios académicos).
    • Se deben identificar los conjuntos “grandes”, definidos como aquellos que representan más del 3% del total de datos públicos utilizados en una modalidad específica.
  • 2.2. Conjuntos privados licenciados:

    • Datos obtenidos mediante acuerdos comerciales con titulares de derechos o sus representantes, como licencias con editoriales para el uso de libros digitales.
    • Se proporciona únicamente una descripción general.
  • 2.3. Otros datos privados no licenciados:

    • Bases de datos adquiridas a terceros que no gestionan directamente los derechos de autor.
    • Si son públicamente conocidas, deben listarse; si no, basta una descripción general (tipo de datos, naturaleza, idiomas).
  • 2.4. Datos obtenidos mediante web crawling/scraping:

Información recopilada por el proveedor o en su nombre mediante herramientas automatizadas. Se debe especificar:

  • Nombre/identificador de los rastreadores.
  • Finalidad y comportamiento (respeto a robots.txt, captchas, paywalls, etc.).
  • Periodo de recogida.
  • Tipos de sitios web (medios, redes sociales, blogs, portales públicos, etc.).
  • Lista de dominios más relevantes, que cubra al menos el 10% superior por volumen. Para PYMES, este requisito se ajusta al 5% o un máximo de 1.000 dominios, lo que sea menor.

2.5. Datos de usuarios:

  • Información generada a través de la interacción con el modelo o con otros servicios del proveedor.
  • Se debe indicar qué servicios contribuyen y la modalidad de los datos (texto, imagen, audio, etc.).

2.6. Datos sintéticos:

  • Datos creados por o para el proveedor mediante otros modelos de IA (por ejemplo, destilación de modelos o refuerzo con retroalimentación humana - RLHF).
  • Cuando corresponda, se debe identificar el modelo generador si está disponible en el mercado.

2.7. Categoría adicional – Otros:

Incluye datos que no encajan en las categorías anteriores, como fuentes offline, digitalización propia, etiquetado manual o generación humana.

3. Aspectos del procesamiento de datos

Se centra en cómo se han gestionado los datos antes y durante el entrenamiento, con especial atención al cumplimiento legal:

  • Respeto a las reservas de derechos (Text and Data Mining, TDM): medidas adoptadas para honrar el derecho de exclusión previsto en el artículo 4(3) de la  Directiva 2019/790(Abre en nueva ventana)  sobre derechos de autor, que permite a los titulares impedir la minería de textos y datos. Este derecho se ejerce mediante  protocolos de opt-out(Abre en nueva ventana) , como etiquetas en archivos o configuraciones en robots.txt, que indican que ciertos contenidos no pueden usarse para entrenar modelos. Los proveedores deben explicar cómo han identificado y respetado estos opt-outs en sus propios datasets y en los adquiridos a terceros.
  • Eliminación de contenido ilegal: procedimientos utilizados para evitar o depurar contenido ilícito bajo la legislación de la UE, como material de abuso sexual infantil, contenidos terroristas o infracciones graves de propiedad intelectual. Estos mecanismos pueden incluir listas negras, clasificadores automáticos o revisión humana, pero sin revelar secretos empresariales.

Título: Plantilla de Resumen Público de los Datos de Entrenamiento.  Cuerpo:  Información clave que se debe hacer pública sobre los datos usados en el entrenamiento de modelos de IA de uso general comercializados en la Unión Europea  Información general   Identificación del proveedor  Identificación del modelo y sus versiones  Fecha de puesta en el mercado del modelo en la UE.   Modalidades de datos utilizadas (texto, imagen, audio, vídeo, u otras).   Tamaño aproximado de los datos por modalidad  Cobertura lingüística  Lista de fuentes de datos   Conjuntos de datos públicos  Conjuntos privados licenciados:   Otros datos privados no licenciados:   Datos obtenidos mediante web crawling/scraping:   Datos de usuarios:   Datos sintéticos:   Categoría adicional – Otros (por ejemplo, fuentes offline).   Aspectos del procesamiento de datos   Respeto a las reservas de derechos (Text and Data Mining, TDM  Eliminación de contenido ilegal   Fuente: Plantilla de Resumen Público de los Datos de Entrenamiento, Comisión europea (julio 2025)

Equilibrio entre transparencia y secretos comerciales

La Comisión Europea ha diseñado la plantilla buscando un equilibrio delicado: ofrecer información suficiente para proteger derechos y fomentar la transparencia, sin obligar a revelar información que pueda comprometer la competitividad de los proveedores.

  • Fuentes públicas: se exige el mayor nivel de detalle, incluyendo nombres y enlaces a los conjuntos de datos “grandes”.
  • Fuentes privadas: se permite un nivel de detalle más limitado, mediante descripciones generales cuando la información no sea pública.
  • Web scraping: se requiere un listado resumido de dominios, sin necesidad de detallar combinaciones exactas.
  • Datos de usuarios y sintéticos: la información se limita a confirmar su uso y describir la modalidad.

Gracias a este enfoque, el resumen es “generalmente completo” en alcance, pero no “técnicamente detallado”, protegiendo tanto la transparencia como la propiedad intelectual y comercial de las empresas.

Cumplimiento, plazos y sanciones

El artículo 53 de la AI Act detalla las obligaciones de los proveedores de modelos de propósito general, entre las que destaca la publicación de este resumen de datos de entrenamiento.

Esta obligación se complementa con  otras medidas(Abre en nueva ventana) , como:

  • Disponer de una política pública de derechos de autor.
  • Implementar procesos de evaluación y mitigación de riesgos, especialmente para modelos que puedan generar riesgos sistémicos.
  • Establecer mecanismos de trazabilidad y supervisión de los datos y procesos de entrenamiento.

El incumplimiento puede acarrear multas significativas, de hasta 15 millones de euros o el 3% de la facturación global anual de la empresa, lo que suponga una mayor cantidad.

Próximos pasos para los proveedores

Para adaptarse a esta nueva obligación, los proveedores deberían:

  1. Revisar procesos internos de recopilación y gestión de datos para garantizar que la información necesaria esté disponible y sea verificable.

  2. Establecer políticas claras de transparencia y derechos de autor, incluyendo protocolos para respetar el derecho de exclusión en minería de textos y datos (TDM).

  3. Publicar el resumen en canales oficiales antes de la fecha límite correspondiente.

  4. Actualizar el resumen periódicamente, al menos cada seis meses o cuando se produzcan cambios materiales en el entrenamiento.

La Comisión Europea, a través de la Oficina Europea de IA,  supervisará el cumplimiento(Abre en nueva ventana)  y podrá solicitar correcciones o imponer sanciones.

Una herramienta clave para gobernar los datos

En nuestro artículo anterior, “ Gobernar los datos para gobernar la Inteligencia Artificial(Abre en nueva ventana) ”, destacábamos que una IA confiable solo es posible si existe un gobierno sólido de los datos.

Esta nueva plantilla refuerza ese principio, ofreciendo un mecanismo estandarizado para describir el ciclo de vida de los datos, desde su origen hasta su tratamiento, y fomentando la interoperabilidad y la reutilización responsable.

Se trata de un paso decisivo hacia una IA más transparente, justa y alineada con los valores europeos, donde la protección de derechos y la innovación tecnológica puedan avanzar juntas.

Fuente original de la noticia(Abre en nueva ventana)

  • Inteligencia Artificial y Blockchain
  • Interoperabilidad - Normalización y Legislación