Want to create interactive content? It’s easy in Genially!

Get started free

Sesgo de datos

2022 Ped NAVARRO SEBA ALICIA JANETH

Created on November 22, 2023

Start designing with a free template

Discover more than 1500 professional designs like these:

Practical Timeline

Timeline video mobile

Timeline Lines Mobile

Major Religions Timeline

Timeline Flipcard

Timeline video

History Timeline

Transcript

Sesgo de

DATOS

Eleccion del conjunto de datos

Sesgo de género

Replicación del sesgo cognitivo

Etiquetado de datos

Sesgo de datos

Las herramientas de IA basadas en modelos lingüísticos (incluido ChatGPT) no se rigen por principios éticos y no pueden distinguir entre lo correcto y lo incorrecto, lo verdadero y lo falso. Estas herramientas sólo recogen información de las bases de datos y los textos que procesan en Internet, por lo que también aprenden cualquier sesgo cognitivo que se encuentre en esa información. Por ejemplo, la investigación sobre GPT-3 ha descubierto que se ha entrenado en conjuntos de datos que tienen sesgos contra las personas con discapacidad (Amin y Kabir, 2022), lo que refleja otros estudios que han detectado sesgos en contra de discapacitados en otro influyente modelo de procesamiento del lenguaje natural, BERT (Hassan, Huenerfauth y Alm, 2021). Además, se ha descubierto que modelos como el BERT reproducen prejuicios que son interseccionales, por ejemplo, contra las mujeres negras (Lepori, 2020). Los ingenieros informáticos han expuesto en una página web accesible e interactiva las formas en que pueden reproducirse los sesgos, animando a los usuarios a averiguar más sobre cómo los conjuntos de datos pueden tener “visiones del mundo” y cómo cuestionar estos supuestos incorporados (Baker, 2022)

La IA se basa en los datos: recopilarlos, razonar sobre ellos y procesarlos. El aprendizaje automático, en particular, requiere grandes cantidades de datos brutos para entrenar los algoritmos que crean modelos para procesar los datos. Desde una perspectiva ética, hay tres ámbitos principales en los que la dependencia de los datos puede crear y perpetuar sesgos: en el proceso de etiquetado de los datos, en la elección del conjunto de datos y en la reproducción de los sesgos cognitivos. Las IES ya están tomando medidas para abordar el sesgo en los conjuntos de datos, por ejemplo con Aequitas, un conjunto de herramientas de auditoría de sesgo de código abierto que puede medir el sesgo y la discriminación en los conjuntos de datos y que ha sido diseñado por investigadores del Centro de Ciencia de Datos y Política Pública de Carnegie Mellon (EE.UU.) para su uso por desarrolladores de IA, analistas y responsables políticos (Universidad Carnegie Mellon, sin fecha)

Los algoritmos se están entrenando con conjuntos de datos masculinos muy sesgados, que arrojan resultados discriminatorios (Criado Pérez, 2019). Los sesgos de género en los datos pueden perjudicar profundamente a las mujeres en diversos sectores que emplean modelos de IA, por ejemplo, al perpetuar los estereotipos de género. Se ha demostrado que varios asistentes de voz identificados como femeninos y utilizados por cientos de millones de personas en todo el mundo, ofrecen respuestas pasivas o sumisas cuando son objeto de acoso por razón de género (Informe GEM, 2023). Por ejemplo, una investigación realizada en la Universidad de Washington (EE.UU.) indica que el software de reconocimiento de voz de Google tiene un 70% más de probabilidades de identificar con precisión el habla masculina en comparación con el habla femenina (UNESCO, 2021d), lo que hace más fácil la aplicación de la tecnología para los hombres que para las mujeres. Este sesgo también se traslada a los mundos virtuales, que captan los mismos escenarios sesgados que nuestra realidad, ya que se construyen con los mismos conjuntos de datos. La violencia de género, por ejemplo, también se traslada a los mundos virtuales, donde puede adoptar diferentes formas, desde el acoso a la suplantación de identidad en línea, el abuso basado en imágenes y la sextorsión (UNFPA, sin fecha). Aunque se reconoce que una gran cantidad de datos equilibrados puede ayudar a reducir las disparidades entre hombres y mujeres, prevalecen las preocupaciones. En concreto, si los procesos de recopilación de datos no plantean las preguntas correctas, incluidas las relativas a las experiencias de las mujeres, los algoritmos podrían reforzar e incluso exacerbar las desigualdades de género.

El sesgo de los datos también se deriva del uso limitado de conjuntos de datos con fines de formación y evaluación. Un estudio descubrió que sólo se utilizaron 12 conjuntos de datos en más de la mitad de los artículos sobre aprendizaje automático (Hanna, Baker y Miceli, sin fecha). Además, 10 de los 12 conjuntos de datos se desarrollaron en Estados Unidos, uno en Alemania y otro en Hong Kong. Más allá del sesgo aparentemente inherente a la mayoría de los datos que se utilizan para desarrollar herramientas de IA, estas conclusiones también apuntan a un sesgo en la función de control no oficial que desempeña un pequeño número de conjuntos de datos situados principalmente en el Norte Global.

El aprendizaje supervisado en el aprendizaje automático depende de la intervención humana. Esto significa que las decisiones sobre qué datos se etiquetan (para su inclusión en conjuntos de datos) y se clasifican y los sistemas de valores que sustentan estas decisiones se basan en elecciones realizadas por personas que pueden, conscientemente o no, reproducir o profundizar los prejuicios existentes (Hanna, Baker y Miceli, sin fecha). Estos sesgos pasan a formar parte de los datos utilizados en los modelos de IA que los reproducen.Otro asunto relacionado son las condiciones de trabajo de los etiquetadores de datos. Los informes han revelado que las empresas con sede en el Norte Global subcontratan el etiquetado de datos a lugares donde los salarios son bajos y las condiciones de trabajo inseguras (A. Williams, 2022), y donde la naturaleza del trabajo puede ser altamente traumatizante o perjudicial (por ejemplo, en el caso del etiquetado de imágenes o textos explícitos) (Perrigo, 2023).

UNESCO. (2023). Oportunidades y desafíos de la era de la inteligencia artificial para la educación superior: Una introducción para los actores de la educación superior. (p.65). Recuperado de: https://unesdoc.unesco.org/ark:/48223/pf0000386670_spa/PDF/386670spa.pdf.multi