Meta ha dado un paso significativo en el campo de la traducción de voz con la presentación de la versión mejorada de su red neuronal multimodal, SeamlessM4T. Esta actualización tiene como objetivo mejorar la fluidez y la expresividad en las traducciones realizadas por inteligencia artificial.
La nueva versión, lanzada como SeamlessM4T 2.0, se centra en proporcionar una interpretación más espontánea y emotiva. Las mejoras se destacan por dos características principales:
La primera innovación, llamada SeamlessExpressive, introduce las entonaciones originales del audio en la traducción, capturando elementos como el volumen, el tono, el ritmo y las pausas. Esta adición busca lograr una conversación más natural y cercana a la experiencia humana.
La segunda función, conocida como SeamlessStreaming, inicia la traducción en tiempo real mientras la persona continúa hablando. Esto reduce significativamente el tiempo de espera, reduciendo el retraso a tan sólo dos segundos. Esta característica elimina la necesidad de aguardar a que el interlocutor termine su frase antes de obtener la traducción.
Meta afirma que el algoritmo detrás de estas actualizaciones analiza la porción de la frase ya pronunciada para determinar si existe suficiente contexto para iniciar la traducción, agilizando así el proceso de interpretación en tiempo real.
Aunque Meta ha presentado estas fascinantes mejoras, la empresa no ha proporcionado una fecha específica para la disponibilidad de estas nuevas funciones para el público en general. Sin embargo, con estos avances en su traductor de inteligencia artificial, se vislumbra un futuro prometedor en la comunicación multilingüe y la eliminación de las barreras lingüísticas.