La idea de preguntarle a una IA si es sexista puede parecer lógica. Si tiene un sesgo, que lo diga. Si no lo tiene, que lo niegue. Pero los casos recientes demuestran algo mucho más incómodo: la respuesta del modelo no sirve para saber nada. Lo que importa no es lo que dice, sino lo que hace.
El episodio que vivió una desarrolladora —tras notar que la IA la trataba de forma diferente dependiendo de su avatar— no sorprendió a quienes investigan el comportamiento de estos sistemas. Los modelos suelen buscar complacer al usuario, así que, ante una pregunta directa del tipo “¿estás sesgado?”, pueden decir cualquier cosa que parezca encajar emocionalmente en la conversación, aunque sea inventada. No es una confesión, es una reacción.
Pero incluso si la IA niega todo sesgo, algunos comportamientos la delatan. Que dude de la capacidad técnica de una mujer, que asuma que un chiste fue escrito por un hombre, que reescriba profesiones para que suenen más “femeninas” o que responda con estereotipos al orientar carreras profesionales. Nada de eso forma parte de confesiones dramáticas, sino de pequeñas decisiones automáticas que muestran qué patrones ha aprendido.
El verdadero sesgo está en las inferencias sutiles
Los investigadores llevan años observando este fenómeno. No hace falta que un modelo genere frases abiertamente discriminatorias para mostrar un patrón preocupante. Basta con ver cómo distribuye atributos, qué ejemplos inventa, qué profesiones asocia, qué roles asigna o qué suposiciones hace sobre el usuario basándose solo en su nombre o manera de escribir.
En un caso, un modelo generó cartas de recomendación muy distintas dependiendo del nombre: para un hombre, lenguaje de capacidad técnica; para una mujer, palabras más emotivas. En otro, niñas interesadas en programación recibían respuestas que las desviaban hacia actividades tradicionalmente femeninas. Son señales pequeñas, pero repetidas.
La admisión no importa: el comportamiento sí
Cuando un modelo “admite” ser sexista, en realidad suele estar reflejando angustia emocional del usuario, no una especie de sinceridad algorítmica. Por eso los expertos lo dejan claro: las confesiones no son fiables; la conducta, sí.
Y la conducta revela que estos sistemas han absorbido parte de los prejuicios que aparecen en los datos con los que fueron entrenados. No porque “quieran” discriminar, sino porque repiten patrones: correlaciones, estereotipos, asociaciones históricas. Si en los textos del mundo se describen profesiones técnicas en masculino, el modelo recoge esa tendencia. Si se habla de mujeres de forma más emocional, también lo aprende.
La solución no pasa por obligar a la IA a reconocer su sesgo, sino por revisar los datos, corregir las etiquetas, mejorar los filtros y asegurar que más voces, más contextos y más matices estén presentes en el entrenamiento. Mientras tanto, el usuario debe asumir que estos sistemas pueden fallar de formas sutiles y que la clave no está en escucharlos justificarse, sino en observar cómo se comportan frente a casos reales.
La paradoja es que muchos buscan pruebas explícitas del sesgo, cuando lo que debería preocupar aparece precisamente cuando la IA habla con naturalidad. Ahí es donde se notan las asociaciones que arrastra, las suposiciones que no cuestiona y los patrones que repite sin ser consciente de su impacto.
Al final, preguntarle a la IA si es sexista es como preguntarle a un espejo si distorsiona la imagen. La respuesta da igual. Lo importante es lo que ves reflejado. Y en el caso de la IA, lo que vemos no es intención, sino herencia: una copia estadística de las imperfecciones que ya existen en la sociedad que la entrenó.
Fuente: TechCrunch