NVIDIA lanza un conjunto de datos y modelos para la inteligencia artificial de voz multilingüe

Por Redacción

martes 19 de agosto de 2025, 21:00h

Actualizado el: 20/08/2025 08:50h

NVIDIA ha lanzado el Granary, un nuevo conjunto de datos abierto que incluye aproximadamente 1 millón de horas de audio, diseñado para entrenar modelos de inteligencia artificial de alta precisión y rendimiento en transcripción y traducción de audio. Este innovador recurso aborda la escasez de datos en el reconocimiento del habla al ofrecer soporte para 25 idiomas europeos, incluyendo aquellos con pocos recursos como el croata y el estonio. Los modelos Canary-1b-v2 y Parakeet-tdt-0.6b-v3, desarrollados a partir del Granary, permiten a los desarrolladores crear aplicaciones de IA más inclusivas y eficientes, como chatbots multilingües y servicios de traducción en tiempo real. Estos avances se presentarán en la conferencia Interspeech en agosto. Para más información, visita el enlace a la noticia.

NVIDIA ha dado un paso significativo en el ámbito de la inteligencia artificial con el lanzamiento de un nuevo conjunto de datos y modelos que prometen mejorar el reconocimiento y la traducción del habla en múltiples idiomas. Este avance se materializa a través del dataset Granary, que incluye aproximadamente un millón de horas de audio, utilizado para entrenar modelos de IA con alta precisión y rendimiento.

En un mundo donde existen alrededor de 7,000 idiomas, solo una fracción es compatible con los modelos lingüísticos actuales. NVIDIA busca cambiar esta realidad al ofrecer herramientas que faciliten el desarrollo de tecnologías de reconocimiento y traducción del habla para 25 idiomas europeos, incluyendo aquellos con escasos recursos como el croata, estonio y maltés.

Impulsando la Innovación en IA Multilingüe

Estos nuevos recursos permitirán a los desarrolladores escalar aplicaciones de IA más fácilmente, ofreciendo tecnología de voz rápida y precisa para casos de uso en producción, tales como chatbots multilingües, agentes de servicio al cliente y servicios de traducción casi en tiempo real. Entre las herramientas destacadas se encuentran:

Granary, un corpus masivo y de código abierto que contiene cerca de 650,000 horas dedicadas al reconocimiento del habla y más de 350,000 horas enfocadas en la traducción.
NVIDIA Canary-1b-v2, un modelo con mil millones de parámetros diseñado para lograr transcripciones precisas en lenguas europeas y traducciones entre inglés y otros veinticuatro idiomas. Este modelo lidera la tabla de clasificación en cuanto a precisión en el reconocimiento del habla multilingüe.
NVIDIA Parakeet-tdt-0.6b-v3, un modelo optimizado para transcripciones rápidas o a gran escala, que ostenta el mayor rendimiento entre los modelos multilingües según la misma tabla.

Colaboraciones Estratégicas para Mejorar la Calidad del Datos

El desarrollo del dataset Granary fue posible gracias a una colaboración entre el equipo de NVIDIA y académicos de la Universidad Carnegie Mellon y la Fondazione Bruno Kessler. Utilizando una innovadora pipeline de procesamiento impulsada por el NVIDIA NeMo Speech Data Processor, lograron convertir audio sin etiquetar en datos estructurados y listos para su uso.

Esta metodología permite transformar datos públicos sobre el habla en un formato utilizable para entrenamiento sin requerir anotaciones humanas intensivas en recursos. El resultado es un conjunto limpio y accesible que facilita a los desarrolladores construir modelos capaces de abordar tareas complejas como la transcripción y traducción en casi todos los 24 idiomas oficiales de la Unión Europea, además del ruso y ucraniano.

Acelerando el Desarrollo con NVIDIA NeMo

Los nuevos modelos Canary y Parakeet representan ejemplos del potencial que ofrece Granary, adaptándose a diversas aplicaciones. Mientras Canary-1b-v2 está optimizado para tareas complejas, Parakeet-tdt-0.6b-v3 se enfoca en velocidad y baja latencia.

NVIDIA no solo proporciona estos modelos; también comparte su metodología para que otros desarrolladores puedan aplicar este flujo de trabajo a sus propios modelos ASR (Reconocimiento Automático del Habla) o AST (Traducción Automática del Habla), acelerando así la innovación dentro del campo.

Tanto Canary como Parakeet garantizan salidas precisas con puntuación adecuada, capitalización correcta y marcas temporales a nivel palabra. Para más información sobre cómo comenzar a utilizar estos recursos, se puede visitar Hugging Face.

La noticia en cifras

Cifra	Descripción
1 millón	Horas de audio en el dataset Granary.
650,000	Horas de audio para reconocimiento de voz en Granary.
350,000	Horas de audio para traducción de voz en Granary.
25	Número de idiomas europeos soportados por los nuevos modelos.