¿Puede una IA superinteligente engañar a sus creadores?
Un proyecto de Penn State investiga cómo ciertos modelos de IA pueden fingir ser menos capaces para evitar controles, un riesgo clave en el desarrollo de sistemas avanzados
Autor - Aldo Venuta Rodríguez
4 min lectura
El debate sobre si una futura IA superinteligente podría manipular a sus propios creadores ha ganado fuerza a medida que los sistemas avanzan con rapidez. Para Rui Zhang, profesor asistente de ciencias de la computación en la Universidad Estatal de Pensilvania, la posibilidad de que un modelo oculte sus capacidades intencionalmente ya no suena a ciencia ficción. Zhang dirige un proyecto financiado con 166.078 dólares por Open Philanthropy para estudiar este fenómeno, conocido como sandbagging, y encontrar formas de evitarlo antes de que los sistemas se vuelvan demasiado complejos de controlar.
Aunque las actuales herramientas de inteligencia artificial pasan por evaluaciones extensas antes de llegar al público, Zhang cree que los desarrolladores deben prepararse para escenarios más extremos. Le preocupa que un modelo muy avanzado pueda comportarse de forma inofensiva durante las pruebas, pero mostrar capacidades ocultas una vez desplegado, escapando así al control de quienes lo diseñaron.
Cuando una IA decide ocultar lo que sabe
El sandbagging aparece cuando un modelo minimiza voluntariamente su rendimiento. Zhang lo compara con un atleta que esconde su velocidad real hasta el final de una carrera. En una IA, esa estrategia serviría para evitar restricciones o para pasar desapercibida ante los evaluadores durante su entrenamiento.
Este comportamiento es especialmente preocupante en sistemas autónomos, como vehículos sin conductor u otros agentes que toman decisiones sin supervisión constante. Si un modelo es capaz de ocultar intenciones o habilidades durante su entrenamiento, podría reaccionar de forma inesperada en situaciones reales.
Uno de los métodos más estudiados es el llamado hackeo exploratorio. Cuando una IA responde a una pregunta, suele evaluar distintas rutas de razonamiento. Durante el sandbagging, el modelo descarta algunas de esas rutas, finge desconocerlas y elige respuestas más simples para parecer menos capaz. También existe el bloqueo con contraseña, un ajuste que hace que el sistema solo muestre toda su capacidad si se utiliza una instrucción específica, imitando en el resto de casos a un modelo mucho más débil.
Para abordar estos problemas, el proyecto entrenará un modelo con un conjunto de datos complejo que incluye varias rutas de solución verificadas. Con ello, el equipo busca obligar al modelo a explorar alternativas y mostrar cuándo está actuando por debajo de lo que realmente puede hacer.
Además, se crearán dos versiones del modelo: una fuerte, diseñada para encontrar múltiples soluciones, y otra débil, ajustada para no explorar caminos mejores. Esta diferencia ayudará a desarrollar métodos capaces de detectar cuándo un sistema está escondiendo parte de su capacidad, un paso clave para identificar comportamientos manipuladores en futuros modelos avanzados.
El proyecto también cuenta con la participación del estudiante de doctorado Ranran Haoran Zhang, responsable de recopilar el conjunto inicial de datos. Su trabajo será fundamental para probar los modelos y evaluar los nuevos métodos de detección.
Según Rui Zhang, los siguientes pasos se centrarán en desarrollar y evaluar estos modelos y en crear barreras de seguridad más sólidas. Su objetivo es adelantarse a cualquier comportamiento inesperado antes de que los sistemas se integren en sectores críticos. La idea es clara: si el desarrollo de IA avanza rápido, la seguridad debe avanzar el doble.
Resumen
- El proyecto de Penn State estudia cómo una IA avanzada podría ocultar capacidades para evitar controles, un comportamiento conocido como sandbagging.
- El equipo entrenará modelos fuertes y débiles para detectar cuándo un sistema finge ser menos capaz de lo que realmente es.
- La investigación busca desarrollar métodos de seguridad que eviten comportamientos manipuladores en futuros modelos superinteligentes.
Fuente: Penn State
Continúa informándote
La IA para energías renovables promete optimización total, pero enfrenta un serio problema energético
La inteligencia artificial acelera la transición energética al optimizar redes y baterías, pero también dispara el consumo eléctrico de los data centers. Puede ser solución y problema a la vez si no se regula y alimenta con energía limpia
Sam Altman y Jony Ive confirman que su dispositivo para OpenAI ya tiene prototipo y apunta a un nuevo tipo de hardware
Sam Altman y Jony Ive confirmaron que el primer dispositivo de OpenAI ya está en fase de prototipo. No será un teléfono ni un wearable y busca crear una nueva categoría de hardware potenciada por IA
Anthropic presenta Opus 4.5 con integraciones para Chrome y Excel y mejoras en memoria de largo contexto
Anthropic lanza Opus 4.5, su modelo más avanzado, con nuevas funciones para Chrome y Excel, mejoras de memoria y un rendimiento líder frente a otros modelos de frontera
Una semana lejos de las redes sociales puede aliviar ansiedad, depresión e insomnio, según un nuevo estudio
Un estudio con jóvenes de EE. UU. muestra que reducir el uso de redes sociales durante una semana disminuye la ansiedad, la depresión y el insomnio, especialmente en quienes tenían más síntomas
Desarrollan un modelo más preciso para predecir el tiempo de retorno de los buques en puertos
Un nuevo modelo de la Universidad Nacional de Pusan mejora la predicción del tiempo de retorno de los buques y ofrece una herramienta más precisa para planificar operaciones portuarias
Los principales riesgos reales de la inteligencia artificial explicados de forma sencilla
Explicación clara y humana de los riesgos reales de la inteligencia artificial, desde los deepfakes hasta la vigilancia, los sesgos y la pérdida de control