La importancia de la equidad de datos en los sistemas de inteligencia artificial

17 julio 2024

El Foro Económico Mundia realizó el informe titulado “Equidad de datos: conceptos fundamentales para la IA generativa" dirigido a la industria, la sociedad civil, academia y tomadores y tomadoras de decisión. Ahora Datos.gob publica un interesante análisis del mismo.

La equidad de datos es un concepto que enfatiza la importancia de considerar cuestiones de poder, sesgo y discriminación en la recopilación, el análisis y la interpretación de datos. Implica garantizar que los datos se recopilen, analicen y utilicen de manera justa, inclusiva y equitativa para todas las partes interesadas, en particular aquellas que históricamente han sido marginadas o excluidas. Aunque no hay un consenso sobre su definición, la equidad de datos tiene como objetivo abordar las desigualdades sistémicas y los desequilibrios de poder mediante la promoción de la transparencia, la rendición de cuentas y la propiedad comunitaria de los datos. También implica reconocer y corregir los legados de discriminación a través de datos y garantizar que los datos se utilicen para apoyar el bienestar y el empoderamiento de todos los individuos y comunidades. Por todo ello, la equidad de datos es un principio clave en la gobernanza de datos, relacionado con los impactos en individuos, grupos y ecosistemas

Para aclarar más sobre esta cuestión, el Foro Económico Mundial –una organización que reúne a líderes de las grandes empresas y personas expertas para tratar asuntos globales— publicó hace unos meses un informe breve titulado “ Data Equity: Foundational Concepts for Generative AI ” ("Equidad de datos: conceptos fundamentales para la IA generativa"), dirigido a la industria, la sociedad civil, academia y tomadores y tomadoras de decisión.

El objetivo del documento del Foro Económico Mundial es, primero, definir la equidad de los datos y demostrar su importancia en el desarrollo y la implementación de la IA generativa (conocida como genAI). En este informe, el Foro Económico Mundial identifica algunos desafíos y riesgos asociados con la falta de equidad de datos en el desarrollo de la IA, como el sesgo, la discriminación y los resultados injustos. Asimismo, pretende ofrecer orientación práctica y recomendaciones para lograr la equidad de datos, incluidas estrategias para la recopilación, el análisis y el uso de datos. Por otro lado, el Foro Económico Mundial dice querer, por un lado, fomentar la colaboración entre las partes interesadas de la industria, los gobiernos, el mundo académico y la sociedad civil para abordar las cuestiones de equidad de datos y promover el desarrollo de una IA justa e inclusiva, y por otro, influir sobre el futuro del desarrollo de la IA.

A continuación, se analizan algunas de las claves del informe.

Tipos de equidad de datos

El documento identifica cuatro clases principales de equidad de datos:

La equidad de representación se refiere a la inclusión justa y proporcional de diferentes grupos en los conjuntos de datos utilizados para entrenar modelos de genAI.
La equidad de recursos habla de la distribución ecuánime de los recursos (datos, infraestructura y conocimientos) necesarios para el desarrollo y uso de la genAI.
La equidad de acceso implica garantizar un acceso justo y no discriminatorio a las capacidades y beneficios de la genAI por parte de diferentes grupos.
La equidad de resultados busca asegurar que los resultados y aplicaciones de la genAI no generen impactos desproporcionados o perjudiciales para grupos vulnerables.

Desafíos de equidad en la genAI

El documento destaca que los modelos de fundación, que son la base de muchas herramientas de genAI, presentan desafíos específicos de equidad de datos, ya que codifican sesgos y prejuicios presentes en los conjuntos de datos de entrenamiento y los pueden llegar a amplificar en sus resultados. En IA, un modelo de función se refiere a un programa o algoritmo que se basa en datos de entrenamiento para reconocer patrones y hacer predicciones o decisiones, lo que le permite hacer predicciones o decisiones basadas en nuevos datos de entrada.

Los principales retos en términos de justicia social con la inteligencia artificial (IA) incluyen el hecho de que los datos de entrenamiento pueden estar sesgados. Los modelos de IA generativa se entrenan en grandes conjuntos de datos que a menudo contienen sesgos y contenido discriminatorio, lo que puede conducir a la perpetuación del discurso de odio, la misoginia y el racismo. Luego, se pueden producir sesgos algorítmicos, que no solo reproducen estos sesgos iniciales, sino que pueden amplificarlos, aumentando las desigualdades sociales existentes y resultar en discriminación y trato injusto a los grupos estereotipados. Existen también preocupaciones sobre la privacidad, ya que la IA generativa se basa en algunos datos personales confidenciales, que pueden ser explotados y expuestos.

El uso cada vez más extenso de la IA generativa en diversos campos está ya provocando cambios laborales, ya que es más fácil, rápido o barato pedirle a una inteligencia artificial que cree una imagen o un texto –en realidad, basado en las creaciones humanas que existen en internet- que encargarlo a una persona experta. Esto puede exacerbar las desigualdades económicas.

Finalmente, la IA generativa tiene el potencial de intensificar la desinformación. La IA generativa se puede utilizar para crear deepfakes de alta calidad, que ya se están usando para difundir bulos y desinformación, algo que podría socavar los procesos e instituciones democráticos.

Brechas y posibles soluciones

Estos desafíos resaltan la necesidad de una cuidadosa consideración y regulación de la IA generativa para garantizar que se desarrolle y utilice de una manera que respete los derechos humanos y promueva la justicia social. Sin embargo, el documento no aborda la desinformación y solo menciona el género cuando habla de la “equidad de características” (feature equity), un componente de la equidad de datos. La equidad de características busca “garantizar una representación precisa de los individuos, grupos y comunidades representados por los datos, lo que requiere la inclusión de atributos como raza, género, ubicación e ingresos junto con otros datos” (pág. 4). Sin estos atributos, dice el documento, “a menudo resulta difícil identificar y abordar sesgos y desigualdades latentes”. No obstante, esas mismas características se pueden utilizar para discriminar contra las mujeres, por ejemplo.

Para abordar estos desafíos, se requiere el compromiso y la colaboración de diversas partes interesadas, como la industria, el gobierno, la academia y la sociedad civil, para desarrollar métodos y procesos que integren consideraciones de equidad de datos en todas las fases del desarrollo de la genAI. Este documento sienta las bases teóricas de lo que se puede entender como equidad de datos; sin embargo, queda mucho camino para ver cómo se pasa de la teoría a la práctica en regulación, hábitos y conocimiento.

Este documento enlaza con los pasos que ya se están llevando a cabo en Europa y España con la Ley de IA de la Unión Europea y la Estrategia IA del Gobierno de España , respectivamente. Precisamente, uno de los ejes de esta última (Eje 3) es fomentar una IA transparente, ética y humanística.

La estrategia española de IA es un documento más amplio que el del Foro Económico Mundial, que describe los planes del gobierno para el desarrollo y la adopción de tecnologías de inteligencia artificial general. La estrategia se centra en áreas como el desarrollo del talento, la investigación y la innovación, los marcos regulatorios y la adopción de la IA en los sectores público y privado, y se dirige principalmente a partes interesadas nacionales, como agencias gubernamentales, empresas e instituciones de investigación. Si bien la estrategia española de IA no menciona explícitamente la equidad de los datos, sí enfatiza la importancia de un desarrollo responsable y ético de la IA, que podría incluir consideraciones en torno a la equidad de los datos.

Fuente original de la noticia (Abre en nueva ventana)

Información y datos del sector público
Inteligencia Artificial y Blockchain