accesskey_mod_content

El nuevo espacio europeo de datos lingüísticos ya está disponible en su versión beta operativa

  • Escuchar
  • Copiar
  • Imprimir PDF
  • Compartir

13 mayo 2025

Con 24 lenguas oficiales y más de 60 lenguas regionales y minoritarias, la Unión Europea se enorgullece de su diversidad cultural y lingüística. Sin embargo, esta riqueza representa también un desafío significativo en el ámbito digital y tecnológico.

Los avances en inteligencia artificial (IA) y procesamiento del lenguaje natural han estado dominados por el inglés, creando un desequilibrio notable en la disponibilidad de recursos lingüísticos(Abre en nueva ventana) para la mayoría de los idiomas europeos.

Este desequilibrio tiene consecuencias directas, como, por ejemplo:

  • Desarrollo tecnológico asimétrico: las empresas e investigadores tienen dificultades para crear soluciones de IA adaptadas a determinados idiomas porque los recursos son limitados.
  • Dependencia tecnológica: Europa corre el riesgo de depender de soluciones lingüísticas desarrolladas fuera de su contexto cultural y normativo.

Resolver esta brecha no solo es una cuestión de inclusión, sino que también representa una oportunidad económica de gran escala, capaz de generar enormes beneficios tanto en comercio como en innovación tecnológica. Para abordar estos desafíos, la Comisión Europea ha lanzado el European Language Data Space (LDS)(Abre en nueva ventana) , una infraestructura descentralizada que promueve el intercambio seguro y controlado de datos lingüísticos entre múltiples actores del ecosistema europeo.

A diferencia de un simple repositorio centralizado, el LDS funciona como un mercado de datos lingüísticos que permite a los participantes compartir, vender o licenciar sus datos bajo condiciones claramente definidas y con control total sobre el uso de los mismos.

El European Language Data Space (LDS, por sus siglas en inglés), con una  versión beta(Abre en nueva ventana) operativa, representa un paso decisivo para democratizar las tecnologías del lenguaje en todos los idiomas de la Unión Europea. Te contamos las claves sobre este proyecto y los próximos pasos.

¿Cómo funciona esta plataforma?

El LDS se basa en una arquitectura descentralizada peer-to-peer (P2P) que permite a los usuarios interactuar directamente entre sí, sin necesidad de un servidor central o autoridad única, donde cada participante mantiene el control de sus propios datos. Los elementos clave del funcionamiento de LDS son:

1. Arquitectura descentralizada y soberana

  • Cada participante (ya sea proveedor o consumidor de datos) puede instalar localmente el  LDS Connector(Abre en nueva ventana) , un software que permite interactuar directamente con otros participantes sin necesidad de un servidor central. Este enfoque garantiza:

  • Soberanía de datos: los propietarios mantienen control absoluto sobre quién puede acceder a sus datos y qué condiciones de uso.

  • Confianza y seguridad: solo los participantes, entidades jurídicas inscritas en la UE, que cumplan los requisitos y sean autorizados pueden formar parte del ecosistema.

  • Interoperabilidad: es compatible con otros espacios de datos europeos, siguiendo estándares comunes.

2. Flujo de intercambio de datos

El proceso de intercambio sigue un flujo estructurado entre dos actores principales:

  • Los proveedores describen sus conjuntos de datos lingüísticos, establecen políticas de acceso (licencias, precios) y publican estas ofertas en el catálogo.

  • Los consumidores exploran el catálogo, identifican recursos de interés y, a través de sus conectores, inician negociaciones sobre los términos de uso.

Si ambas partes llegan a un acuerdo, se establece un contrato y se efectúa la transferencia de datos de forma segura entre los conectores.

3. Infraestructura de apoyo

Aunque el intercambio es descentralizado, el LDS incluye elementos de apoyo como:

  • Registro de participantes: garantiza que solo entidades verificadas participen en el ecosistema.

  • Catálogo opcional: facilita la publicación y descubrimiento de recursos disponibles

  • Hub de vocabularios: es un servicio que centraliza los vocabularios controlados, y permite mantener las listas de valores, definiciones, relaciones entre términos, mapeadores entre listas, etc.

  • Servicio de monitorización: permite supervisar el funcionamiento general del sistema.

Valor añadido para el ecosistema europeo de datos

El LDS aporta beneficios significativos al panorama digital europeo:

  • Impulso de la IA multilingüe

Al facilitar el acceso a datos lingüísticos de calidad en todos los idiomas europeos, el LDS contribuye directamente al desarrollo de modelos de IA más inclusivos y adaptados a la realidad multilingüe de Europa. Esto resulta especialmente relevante en un momento en que los  grandes modelos de lenguaje  (LLM) están transformando la interacción entre humanos y máquinas.

  • Fortalecimiento de la economía de datos

Se estima que una verdadera integración lingüística digital podría generar enormes beneficios económicos tanto en comercio como en innovación tecnológica. El LDS crea un mercado donde los datos lingüísticos adquieren valor, incentivando su recopilación, procesamiento y puesta a disposición bajo condiciones justas y transparentes.

  • Preservación de la diversidad lingüística

Al promover el desarrollo tecnológico en todas las lenguas europeas, el LDS contribuye a preservar y revitalizar el patrimonio lingüístico del continente, garantizando que ningún idioma quede rezagado en la revolución digital.

  • El papel crucial de la industria y las administraciones públicas

El éxito del LDS depende fundamentalmente de la participación activa de diversos actores:

  • Datos frescos y de calidad

La plataforma busca atraer especialmente datos "frescos" provenientes de la industria (medios de comunicación, editoriales, servicios al cliente) y del sector público, necesarios para entrenar y mejorar los modelos de lenguaje actuales. Se valoran particularmente:

  • Datos multimodales (texto, audio, vídeo).
  • Contenidos específicos de diversos dominios profesionales.
  • Recursos lingüísticos actualizados y relevantes.
  • Participación abierta a todos los actores del ecosistema

El LDS está diseñado para ser inclusivo, permitiendo que tanto organizaciones privadas como entidades públicas participen, siempre que sean entidades jurídicas inscritas en la UE. Ambos tipos de organizaciones pueden actuar como proveedores y/o consumidores de datos.

La participación se formaliza mediante un proceso de validación por parte de la junta de gobernanza, garantizando que todas las organizaciones que cumplan con los requisitos puedan beneficiarse de este mercado común de datos lingüísticos.

¿Cómo participar?

La versión beta del LDS ya está operativa(Abre en nueva ventana) y abierta a nuevos participantes. Las organizaciones interesadas en formar parte de esta iniciativa(Abre en nueva ventana) pueden:

  1. Unirse a los grupos de prueba y enfoque: para contribuir al desarrollo y mejora de la plataforma, aquí(Abre en nueva ventana) .

  2. Probar el conector LDS: experimentando con la tecnología en entornos controlados.

  3. Aportar feedback técnico: ayudando a definir aspectos clave como metadatos, licencias o mecanismos de intercambio.

  4. Identificar datos relevantes: evaluando qué recursos lingüísticos podrían compartirse a través de la plataforma.

El futuro del LDS

Aunque actualmente el LDS se centra en el intercambio de datos, su visión a medio plazo contempla la posibilidad de integrar servicios lingüísticos y alojamiento de modelos de IA dentro del mismo ecosistema, reforzando así el papel de Europa en el desarrollo de tecnologías del lenguaje. En julio de este año, 2025, se espera poder contar con una versión pre-final y la versión finalizada de LDS está prevista para enero de 2026.

Todos estos aspectos fueron comentados en seminario online y gratuito que celebró el portal de datos abiertos europeo “Data spaces: experience from the European Language Data Space”. Puedes volver a ver el webinar aquí(Abre en nueva ventana) .

En un contexto global donde la soberanía tecnológica se ha convertido en prioridad estratégica, el European Language Data Space representa un paso decisivo para garantizar que la revolución de la IA no deje atrás la riqueza lingüística que caracteriza a Europa.

Fuente original de la noticia(Abre en nueva ventana)

  • Infraestructuras y servicios comunes