Investigadores del MIT han desarrollado un enfoque innovador para enseñar a los agentes de inteligencia artificial (IA) a formular mejores preguntas utilizando el juego "Battleship". Este estudio revela que un modelo de IA más pequeño, como Llama 4 Scout, puede superar a modelos más grandes como GPT-5 en este contexto, logrando una tasa de victoria del 82% contra jugadores humanos. Al implementar estrategias de inferencia de Monte Carlo y convertir preguntas en comandos codificados, los modelos mejoraron significativamente su capacidad para obtener respuestas precisas. Este avance podría transformar la forma en que las IAs abordan problemas complejos en campos como el diagnóstico médico y el descubrimiento científico.
En un contexto donde la inteligencia artificial (IA) está en el centro de atención, investigadores del Instituto Tecnológico de Massachusetts (MIT) y de la Universidad de Harvard han utilizado el clásico juego de “Battleship” como laboratorio para evaluar el rendimiento de modelos de IA. Su estudio revela que un modelo pequeño puede superar a los más grandes a una fracción del costo.
Con la creciente popularidad de los agentes de IA, que pueden realizar tareas específicas en campos como el servicio al cliente y el desarrollo de software, surge la necesidad de que estos sistemas sean capaces de formular preguntas efectivas en entornos inciertos, algo que los modelos lingüísticos actuales no logran con eficacia.
El equipo del MIT y Harvard se adentró en las limitaciones de los modelos lingüísticos mediante un experimento basado en “Battleship”, un juego que ha servido para estudiar cómo los humanos buscan información. En su versión denominada “Collaborative Battleship”, un jugador actúa como “capitán” haciendo preguntas sobre la ubicación de barcos ocultos, mientras que otro jugador, el “observador”, responde en tiempo real.
Para construir el conjunto de datos “BattleshipQA”, los investigadores hicieron que más de 40 personas jugaran juntas, recopilando sus preguntas y respuestas afirmativas o negativas. Esto les permitió comparar el rendimiento de modelos avanzados como GPT-5 con modelos más pequeños como Llama 4 Scout. Sin entrenamiento previo, descubrieron que los mejores modelos podían vencer a los humanos en el juego, aunque los sistemas más pequeños mostraban menos racionalidad.
La principal dificultad radicaba en la incapacidad de muchos modelos para formular preguntas útiles. Para mejorar este aspecto, los investigadores implementaron una estrategia de inferencia Monte Carlo, que evalúa cuidadosamente la probabilidad de diferentes opciones con cada respuesta. Esto permitió a los modelos superar a jugadores regulares en "Battleship", independientemente de su tamaño.
Los resultados fueron sorprendentes: Llama 4 Scout, inicialmente exitoso solo un 8% del tiempo contra humanos, logró una tasa de victoria del 82% tras optimizar su estrategia. Este modelo demostró ser capaz incluso de superar a GPT-5 mientras operaba a aproximadamente el 1% del costo del modelo más grande.
Aparte del aumento en las tasas de victoria, los investigadores lograron reducir la brecha entre las respuestas humanas y las proporcionadas por los modelos. Aunque GPT-5 actuaba como un observador confiable para acelerar el juego, otros sistemas tendían a proporcionar respuestas incorrectas sobre la ubicación de los barcos. La precisión mejoró un 15% cuando comenzaron a convertir preguntas en comandos codificados que les indicaban cómo verificar sus respuestas.
"Los modelos lingüísticos actuales están optimizados principalmente para responder consultas complejas, pero no está claro si aprenden a formular buenas preguntas por sí mismos", explicó Gabriel Grand, estudiante doctoral del MIT y autor principal del estudio. "Nuestro trabajo demuestra que hacer preguntas informativas depende de la capacidad para predecir y simular el mundo".
El equipo también exploró cómo su enfoque podría aplicarse a otros juegos. En pruebas realizadas con “Guess Who?”, tanto modelos grandes como pequeños lograron reducir las opciones hasta identificar correctamente al personaje oculto. Tras ajustes estratégicos, Llama 4 Scout completó esta tarea con éxito en más del 72% de sus intentos.
A pesar del progreso logrado por estos modelos lingüísticos en ambos juegos, aún enfrentan desafíos significativos al responder preguntas complejas comparado con humanos. Valerio Pepe, investigador asociado y coautor del estudio, subrayó que aunque GPT-5 puede superar al jugador promedio en "Battleship", todavía tiene dificultades frente a jugadores expertos.
Los hallazgos sugieren que los agentes AI tienen un potencial sin explotar para descubrir soluciones raras dentro de vastos espacios problemáticos científicos. A medida que se desarrollen habilidades mejoradas para buscar información, podrían convertirse en asistentes valiosos en investigaciones científicas. No obstante, los investigadores advierten que "Collaborative Battleship" es solo un entorno simplificado y planean probar estos modelos en contextos más complejos donde deban considerar muchas más opciones.
Grand también tiene planes para investigar cómo colaborarían humanos y modelos AI juntos para determinar si su trabajo conjunto sería más eficiente. Con mayor potencia computacional y ajustes finos en simulaciones lúdicas, se espera que estos sistemas logren capacidades inferenciales más avanzadas.
"A medida que los sistemas AI se vuelven más autónomos, surgen problemas sociales complejos: establecer puntos comunes, resolver malentendidos y adaptarse a diferentes compañeros", comentó Robert Hawkins, profesor asistente de lingüística en Stanford University. "Este trabajo captura elegantemente estas dinámicas colaborativas controladas y argumenta convincentemente que el verdadero obstáculo para los agentes AI no es solo calcular las mejores preguntas, sino también razonar pragmáticamente sobre cómo aprovechar al máximo sus respuestas".
Este estudio fue presentado oralmente durante la Conferencia Internacional sobre Representaciones Aprendidas (ICLR) celebrada en abril y recibió apoyo financiero significativo por parte varias instituciones e iniciativas relacionadas con IA.
| Descripción | Cifra |
|---|---|
| Tasa de victoria inicial de Llama 4 Scout contra humanos | 8% |
| Tasa de victoria de Llama 4 Scout después de mejoras | 82% |
| Aumento promedio en precisión al convertir preguntas en código | 15% |
| Tasa de éxito inicial de Llama 4 Scout en "Guess Who?" | 30% |
| Tasa de éxito final de Llama 4 Scout en "Guess Who?" después de mejoras | más del 72% |
| Tasa de éxito inicial de GPT-4o en "Guess Who?" | 62% |
| Tasa de éxito final de GPT-4o en "Guess Who?" después de mejoras | 90% |