ACTUALIDAD

MIT desarrolla un dataset para mejorar la interpretación de gráficos por modelos de IA

Redacción | Jueves 04 de junio de 2026

MIT researchers have developed ChartNet, a groundbreaking dataset designed to enhance the ability of AI models to interpret charts. This innovative training resource includes over a million diverse chart images, enabling vision-language models (VLMs) to accurately analyze business trends and scientific figures. By integrating visual, numerical, and linguistic data, ChartNet significantly improves the performance of smaller open-source models compared to larger commercial counterparts. The dataset aims to bridge the gap in chart understanding, crucial for industries reliant on data visualization. Researchers plan to expand ChartNet further, ensuring it meets the evolving needs of AI practitioners. For more details, visit the full article at MIT's website.



En un esfuerzo por optimizar la toma de decisiones en un mercado global acelerado, las empresas están comenzando a implementar modelos de inteligencia artificial generativa para resumir e interpretar los gráficos que comúnmente aparecen en resúmenes de mercado y reportes financieros.

No obstante, incluso los modelos de lenguaje-visual más avanzados enfrentan desafíos en esta tarea, ya que requieren una integración efectiva de comprensión visual, numérica y lingüística. Por ello, una compañía que invierte en un modelo de última generación podría continuar recibiendo información inexacta o incompleta.

Desarrollo de ChartNet

Con el objetivo de cerrar esta brecha de rendimiento, investigadores del MIT y del MIT-IBM Computing Research Lab han creado un recurso multifacético destinado a enseñar a los modelos de lenguaje-visual (VLMs) cómo interpretar gráficos con eficacia.

Utilizando un innovador método de generación de datos, el equipo desarrolló un conjunto de datos avanzado que incluye más de un millón de gráficos variados. Este conjunto también codifica numerosos componentes visuales, lingüísticos y numéricos de cada imagen gráfica, lo que permite a los modelos razonar robustamente sobre la información presentada.

El conjunto de datos, denominado ChartNet, fue utilizado para entrenar una serie de VLMs de código abierto. Muchos de estos modelos más pequeños superaron significativamente a modelos comerciales mucho más grandes en tareas como extracción de datos y resumen gráfico.

Accesibilidad para pequeñas empresas

Al permitir que los modelos de código abierto superen a sus contrapartes comerciales, ChartNet podría facilitar el acceso a la inteligencia artificial para pequeñas empresas con presupuestos limitados. Este conjunto puede ser empleado para mejorar las capacidades de los modelos AI en tareas como análisis de tendencias empresariales e interpretación de figuras científicas.

“Desarrollamos ChartNet como una solución integral para la comprensión gráfica, cubriendo prácticamente todo lo que un modelo AI y un practicante podrían necesitar durante su entrenamiento. Esperamos que nuestro trabajo motive a otros investigadores a alcanzar un rendimiento excepcional con modelos más pequeños que no requieran cantidades infinitas de computación”, afirma Jovana Kondic, estudiante graduada del MIT en ingeniería eléctrica y ciencias computacionales y autora principal del artículo sobre ChartNet.

Kondic está acompañada por varios coautores del MIT, el MIT-IBM Computing Research Lab y IBM Research, incluyendo a Pengyuan Li, Dhiraj Joshi, Isaac Sanchez, Aude Oliva y Rogerio Feris. La investigación se presentará en la Conferencia IEEE sobre Visión por Computadora y Reconocimiento de Patrones.

Bottleneck en conjuntos de datos

A pesar del avance significativo en el desarrollo de modelos generativos AI especializados en procesamiento del lenguaje natural e imágenes naturales, aún hay poco enfoque en la interpretación precisa de datos multimodales complejos contenidos en gráficos. Según Kondic, esto es crucial tanto para grandes como para pequeñas empresas en casi todas las industrias.

“La industria financiera depende enormemente de los gráficos. Si los modelos lenguaje-visual pueden extraer información relevante como descripciones de tendencias, eso facilita muchos flujos laborales posteriores”, comenta Joshi.

La falta de datos de entrenamiento de alta calidad representa un obstáculo importante que limita el desarrollo efectivo de VLMs capaces de interpretar gráficos con precisión. Muchos conjuntos existentes contienen imágenes gráficas limitadas extraídas del internet y carecen del alcance necesario para ayudar al modelo a comprender los datos subyacentes.

Generación sintética

Los investigadores abordaron estas limitaciones generando datos sintéticos mediante algoritmos diseñados para imitar las propiedades estadísticas del dato real. El conjunto ChartNet contiene más de un millón de imágenes gráficas junto con el código correspondiente utilizado para generar cada gráfico, descripciones textuales y tablas con información numérica asociada.

Cada punto incluye pares pregunta-respuesta destinados a enseñar al modelo cómo responder correctamente preguntas sobre la imagen gráfica. “Estos modos adicionales guían al modelo para conectar y alinear las diferentes piezas informativas que codifica la imagen gráfica”, explica Kondic.

Para construir ChartNet, se implementó un sistema automatizado que traduce conjuntos preexistentes de imágenes gráficas en código y luego augments dicho código iterativamente cambiando diversos aspectos como tipo gráfico o valores numéricos.

Resultados prometedores

Los investigadores probaron ChartNet entrenando la serie Granite Vision modelada por IBM así como varios otros modelos open-source evaluándolos en diversas tareas relacionadas con la interpretación gráfica. Los resultados mostraron mejoras significativas en precisión respecto a reconstrucción gráfica, extracción y resumen gráfico así como respuestas a preguntas sobre gráficos.

A través del uso del conjunto ChartNet, los pequeños modelos open-source demostraron consistentemente superar a modelos comerciales mucho mayores. “Muchos conjuntos previos solo se enfocaban en responder preguntas simples sobre gráficos; nosotros intentamos ir más allá con ChartNet generando datos que apoyen todos los aspectos necesarios para una comprensión robusta”, concluye Kondic.

A futuro, los investigadores planean seguir expandiendo ChartNet incorporando datos con niveles adicionales de complejidad y buscando retroalimentación dentro della comunidad investigadora. Esta investigación ha sido financiada parcialmente por el MIT-IBM Computing Research Lab.

La noticia en cifras

Cifra Descripción
1,000,000 Número de gráficos variados incluidos en el conjunto de datos ChartNet.
2 Número de pasos en el proceso de generación de datos sintéticos utilizado para crear ChartNet.
100+ Número de aumentaciones que se pueden generar a partir de un solo gráfico semilla.
4 Número de tareas de interpretación de gráficos en las que se evaluaron los modelos entrenados con ChartNet.