Nuevo enfoque adaptativo transforma cómo se evalúan los modelos de inteligencia artificial

Investigadores de Stanford han revolucionado la evaluación de modelos de IA con un método que reduce costos hasta 80% y hace comparaciones más justas entre modelos.

4 min lectura

Autor - Aldo Venuta Rodríguez

inteligencia artificial
Imagen ilustrativa. Créditos: Iceebook

El problema de la evaluación tradicional

Evaluar modelos de lenguaje de inteligencia artificial se ha convertido en un proceso tan costoso como entrenar los propios modelos. Los desarrolladores tradicionalmente someten sus sistemas a cientos de miles de preguntas de referencia que requieren revisión manual, aumentando significativamente tiempo y costos de desarrollo.

Los métodos actuales enfrentan limitaciones críticas: no pueden aplicar todas las preguntas disponibles debido a restricciones prácticas, llevando a seleccionar subconjuntos sesgados hacia preguntas más fáciles que sobrestiman las mejoras reales del modelo.

La Teoría de Respuesta al Ítem aplicada a IA

Los investigadores adoptaron un concepto educativo de décadas de antigüedad conocido como Teoría de Respuesta al Ítem, que considera la dificultad de las preguntas al evaluar a los examinados. Sanmi Koyejo, profesora adjunta que dirigió la investigación, lo compara con pruebas estandarizadas como el SAT.

"La observación clave que hacemos es que también hay que tener en cuenta la dificultad de las preguntas", explica Koyejo. "Algunos modelos pueden tener mejores o peores resultados simplemente por pura casualidad. Intentamos anticiparnos a eso y ajustarlo para hacer comparaciones más justas".

El sistema funciona como las pruebas adaptativas: cada respuesta correcta o incorrecta modifica la siguiente pregunta. Los investigadores utilizan modelos lingüísticos para analizar y calificar las preguntas según su dificultad, permitiendo comparar el rendimiento relativo de dos modelos de manera más precisa.

Esta aproximación elimina el sesgo inherente en las evaluaciones tradicionales, donde algunos modelos obtienen mejores puntajes por casualidad al recibir conjuntos de preguntas más simples, distorsionando la percepción real de su rendimiento.

Generación automatizada y calibración de preguntas

Para construir bancos de preguntas amplios y bien calibrados de forma rentable, los investigadores desarrollaron un generador de preguntas que utiliza las capacidades generativas de la IA. Este sistema puede ajustarse al nivel de dificultad deseado y automatiza la reposición de bancos de preguntas.

El generador también elimina preguntas "contaminadas" de la base de datos, aquellas que podrían haber sido utilizadas durante el entrenamiento de los modelos evaluados, asegurando evaluaciones más limpias y confiables.

Resultados experimentales y validación

Koyejo probó el sistema con 22 conjuntos de datos y 172 modelos de lenguaje, descubriendo que se adapta fácilmente tanto a nuevos modelos como a nuevas preguntas. El enfoque funciona en todos los ámbitos del conocimiento, desde medicina y matemáticas hasta derecho.

El método permitió detectar cambios sutiles en la seguridad de GPT 3.5 a lo largo del tiempo, registrando primero mejoras y luego retrocesos en varias variantes probadas durante 2023. La seguridad de modelos mide la robustez ante manipulación de datos, ataques adversarios y otros riesgos.

Los resultados demuestran que el sistema no solo reduce costos, sino que proporciona mediciones más estables y reproducibles del rendimiento real de los modelos, eliminando la variabilidad causada por la selección aleatoria de preguntas.

"Este proceso de evaluación a menudo puede costar tanto o más que la propia capacitación", añade Sang Truong. "Hemos creado una infraestructura que nos permite seleccionar subconjuntos de preguntas de forma adaptativa según su dificultad. Esto nivela las condiciones de competencia".

Impacto en el futuro de la IA

Con preguntas mejor diseñadas, otros profesionales del sector pueden realizar mejores evaluaciones de rendimiento con subconjuntos mucho más reducidos de consultas. Este enfoque es más rápido, más justo y significativamente menos costoso que los métodos tradicionales.

"Y para todos los demás", concluye Koyejo, "significará un progreso más rápido y una mayor confianza en las herramientas de inteligencia artificial en rápida evolución".

Fuentes: Stanford Report

No hemos podido validar su suscripción.
Se ha realizado su suscripción.

Recibe el boletín de Iceebook

Las noticias más importantes del planeta, ciencia, espacio y tecnología, directamente en tu bandeja de entrada. Sin ruido, solo lo esencial.

Preguntas frecuentes

💬 Es un concepto educativo que considera la dificultad de preguntas al evaluar. En IA, permite comparaciones más justas entre modelos ajustando según dificultad de las preguntas.
💬 Reduce los costos hasta 80% en algunos casos, mientras mantiene la precisión al seleccionar subconjuntos de preguntas de forma adaptativa.
💬 Funciona en todos los ámbitos del conocimiento: medicina, matemáticas, derecho y cualquier área donde se evalúen modelos de lenguaje.
💬 Es más rápido, justo y económico. Elimina sesgos por dificultad de preguntas y permite detectar cambios sutiles en el rendimiento de los modelos.

Continúa informándote

Calle urbana inundada
El Mundo

Inundaciones repentinas en Nueva York causan dos víctimas mortales en Nueva Jersey

Lluvias torrenciales registran récord histórico en Central Park y colapsan sistema de metro de la ciudad

Mark Zuckerberg
Tecnología

Empieza el juicio entre inversores de Meta y Zuckerberg por presuntas violaciones de privacidad de usuarios

Accionistas reclaman 8 mil millones de dólares por el escándalo Cambridge Analytica y presunto manejo ilegal de datos de Facebook

Corriente en chorro
Ciencia

Descubren cómo predecir mejor el clima de los próximos 10 años

Investigadores de Leipzig revelan nuevos conocimientos sobre la corriente en chorro que revolucionarán las predicciones climáticas regionales

Científicos trabajan en la extracción de un testigo de hielo en la ladera nevada del Mont Blanc, rodeados de equipos y nieve
Ciencia

Descubren el núcleo de hielo más antiguo de Europa con 12.000 años de datos climáticos

Glaciar de Mont Blanc documenta desde cazadores-recolectores hasta la industrialización en registro sin precedentes

Sol
Espacio

Descubren por qué las regiones más brillantes del Sol producen erupciones más lentas

Laboratorio Naval de EE.UU. revela relación inversa que podría revolucionar la predicción del clima espacial

Erupción volcánica en Islandia
Planeta Tierra

Islandia registra su duodécima erupción volcánica en cuatro años cerca de la capital

Volcán del suroeste emite lava incandescente y obliga a evacuar la Laguna Azul y Grindavik por seguridad

Planeta gaseoso
Espacio

Científicos observan la lenta agonía de un planeta que se desintegra en el espacio

Investigadores estudian TOI-2109b, un Júpiter ultracaliente con período orbital de 16 horas que podría estar cayendo hacia su estrella

kilonova
Espacio

NASA prevé descubrir explosiones estelares nunca vistas con telescopio Roman

Estudio proyecta que el futuro observatorio espacial detectará 100.000 explosiones cósmicas y revolucionará el estudio de la energía oscura

Memes de internet y los cómics tradicionales
Tecnología

¿Son los memes una nueva forma de cómic digital? La ciencia dice que sí

Especialista de la Universidad Estatal de Ohio demuestra que memes y cómics comparten elementos visuales y verbales fundamentales

Incendio forestal Dragon Bravo arrasando vegetación en el Gran Cañón
El Mundo

Incendio del Gran Cañón destruye lodge histórico tras ser dejado arder durante una semana

El fuego Dragon Bravo creció 50% después de arrasar con 70 estructuras y provocar la indignación pública por la estrategia fallida