El post Together AI afirma tener la pila de conversión de voz a texto más rápida con Parakeet v3 apareció en BitcoinEthereumNews.com. Felix Pinkston 29 de mayo de 2026 22:48 Together AIEl post Together AI afirma tener la pila de conversión de voz a texto más rápida con Parakeet v3 apareció en BitcoinEthereumNews.com. Felix Pinkston 29 de mayo de 2026 22:48 Together AI

Together AI afirma tener el stack de voz a texto más rápido con Parakeet v3

2026/05/31 16:49
Lectura de 4 min
Si tienes comentarios o inquietudes sobre este contenido, comunícate con nosotros mediante crypto.news@mexc.com


Felix Pinkston
29 mayo 2026 22:48

Together AI presenta su stack ASR más rápido, aprovechando NVIDIA Parakeet v3 y Whisper para transcripción en tiempo real y de baja latencia. Detalles sobre la tecnología y su impacto en el mercado.

Together AI ha anunciado lo que afirma ser el stack de conversión de voz a texto (ASR) más rápido del mundo, capaz de transcribir 20 horas de audio en menos de 10 segundos. El avance aprovecha el Parakeet-TDT 0.6B v3 de NVIDIA y el Whisper Large v3 de OpenAI, ambos optimizados para aplicaciones de baja latencia y alto rendimiento. Este desarrollo podría impulsar significativamente los sistemas de IA de voz en tiempo real, un área clave de enfoque para la empresa a medida que escala su infraestructura.

El núcleo del logro de Together AI radica en tratar el ASR como un problema de sistemas de ruta completa, en lugar de centrarse únicamente en la inferencia de GPU. Este enfoque holístico aborda los cuellos de botella en el preprocesamiento, la ejecución en GPU, la gestión de memoria y las redes. Por ejemplo, innovaciones como el ajuste de perfiles TensorRT, los grafos CUDA condicionales y las rutas de datos de copia cero han reducido drásticamente la latencia en todo el stack.

Una optimización destacada es el bucle decodificador en Parakeet v3. Al trasladar la lógica condicional de la CPU a la GPU, Together AI eliminó costosos retrasos de sincronización, lo que resultó en una aceleración de 2-3x en la decodificación. Del mismo modo, el uso de memoria compartida y E/S basada en eventos para la transcripción en streaming ha minimizado la sobrecarga, garantizando tanto un alto rendimiento como un bajo jitter para aplicaciones en tiempo real.

Parakeet v3, un modelo ASR multilingüe entrenado con 1,7 millones de horas de audio, representa un gran salto respecto a su predecesor. Ahora admite 25 idiomas europeos, incluye detección automática de idioma y mantiene su rendimiento líder en la industria para la transcripción en inglés. La plataforma de Together AI también integra Whisper Large v3 para cargas de trabajo a escala de producción, creando un ecosistema robusto para desarrolladores que crean aplicaciones basadas en voz.

Atendiendo las Necesidades del Mercado

Este anuncio posiciona a Together AI como un serio competidor en el mercado de ASR, particularmente para casos de uso en tiempo real y de streaming. A diferencia de los sistemas ASR tradicionales que dependen de pipelines aislados, Together AI ofrece un stack modular donde la conversión de voz a texto (STT), la comprensión del lenguaje natural (NLU) y la conversión de texto a voz (TTS) pueden operar de manera cohesiva en la misma infraestructura. Esto reduce la latencia y permite a los desarrolladores inspeccionar y manipular los resultados intermedios, un diferenciador clave para los agentes de voz en tiempo real.

Las recientes asociaciones destacan la estrategia de la empresa de construir un ecosistema abierto y componible. En abril de 2026, Deepgram integró sus modelos ASR directamente en la plataforma de Together AI, lo que permite a los desarrolladores combinar modelos de voz especializados con la infraestructura de Together AI. Esta flexibilidad es cada vez más valiosa a medida que las cargas de trabajo de IA avanzan hacia arquitecturas unificadas que combinan capacidades de voz, lenguaje y multimodales.

Impacto en la Industria y los Inversores

Los avances de Together AI llegan cuando la empresa supuestamente busca recaudar capital con una valoración de 7.500 millones de dólares, según informes de marzo de 2026. El interés de los inversores refleja la creciente demanda de infraestructura de inferencia de alto rendimiento, especialmente para sistemas de IA de voz y multimodales. Con más de 450.000 desarrolladores y 200 modelos de código abierto ya compatibles en su plataforma, Together AI está bien posicionada para capitalizar este impulso.

Competidores como Deepgram y Google aún dominan segmentos del mercado ASR, pero el enfoque de Together AI en el alojamiento de modelos abiertos y el rendimiento en tiempo real podría conquistar una cuota de mercado significativa. La integración de la tecnología ASR de NVIDIA refuerza aún más su credibilidad técnica, especialmente dado el liderazgo de NVIDIA en hardware de IA y optimización de software.

A medida que las interfaces de voz se vuelven más integrales para las aplicaciones de consumo y empresariales, las soluciones ASR de baja latencia y escalables como la de Together AI podrían redefinir las expectativas de los usuarios. Desarrolladores, inversores y empresas por igual deberían observar de cerca cómo la empresa continúa refinando su stack y expandiendo su ecosistema.

Fuente de la imagen: Shutterstock

Source: https://blockchain.news/news/together-ai-fastest-speech-to-text-parakeet-v3

Oportunidad de mercado
Logo de Gensyn
Precio de Gensyn(AI)
$0.03027
$0.03027$0.03027
+0.16%
USD
Gráfico de precios en vivo de Gensyn (AI)

Launchpad de SPACEX(PRE)

Launchpad de SPACEX(PRE)Launchpad de SPACEX(PRE)

Regístrate para ganar un sorteo gratis

Aviso legal: Los artículos republicados en este sitio provienen de plataformas públicas y se ofrecen únicamente con fines informativos. No reflejan necesariamente la opinión de MEXC. Todos los derechos pertenecen a los autores originales. Si consideras que algún contenido infringe derechos de terceros, comunícate a la dirección crypto.news@mexc.com para solicitar su eliminación. MEXC no garantiza la exactitud, la integridad ni la actualidad del contenido y no se responsabiliza por acciones tomadas en función de la información proporcionada. El contenido no constituye asesoría financiera, legal ni profesional, ni debe interpretarse como recomendación o respaldo por parte de MEXC.

Launchpad de SPACEX(PRE)

Launchpad de SPACEX(PRE)Launchpad de SPACEX(PRE)

Regístrate para ganar un sorteo gratis