Felix Pinkston
29 mai 2026 22:48
Together AI dévoile sa pile ASR la plus rapide, tirant parti de NVIDIA Parakeet v3 et de Whisper pour une transcription en temps réel à faible latence. Détails sur la technologie et son impact sur le marché.
Together AI a annoncé ce qu'elle affirme être la pile de reconnaissance automatique de la parole (ASR) la plus rapide au monde, capable de transcrire 20 heures de discours en moins de 10 secondes. Cette avancée s'appuie sur le Parakeet-TDT 0.6B v3 de NVIDIA et le Whisper Large v3 d'OpenAI, tous deux optimisés pour les applications à faible latence et à débit élevé. Ce développement pourrait considérablement faire progresser les systèmes d'IA vocale en temps réel, un domaine clé sur lequel l'entreprise se concentre au fur et à mesure qu'elle développe son infrastructure.
Le cœur de la réussite de Together AI réside dans le traitement de l'ASR comme un problème de systèmes en chemin complet, plutôt que de se concentrer uniquement sur l'inférence GPU. Cette approche holistique résout les goulots d'étranglement dans le prétraitement, l'exécution GPU, la gestion de la mémoire et la mise en réseau. Par exemple, des innovations telles que l'optimisation de profil TensorRT, les graphes CUDA conditionnels et les chemins de données à copie zéro ont considérablement réduit la latence à travers la pile.
L'une des optimisations les plus remarquables est la boucle de décodeur dans Parakeet v3. En déplaçant la logique conditionnelle du CPU vers le GPU, Together AI a éliminé les coûteux délais de synchronisation, entraînant une accélération de 2 à 3x pour le décodage. De même, l'utilisation de la mémoire partagée et des I/O événementielles pour la transcription en streaming a minimisé la surcharge, garantissant à la fois un débit élevé et une faible gigue pour les applications en temps réel.
Parakeet v3, un modèle ASR multilingue entraîné sur 1,7 million d'heures d'audio, représente un bond majeur par rapport à son prédécesseur. Il prend désormais en charge 25 langues européennes, inclut la détection automatique de la langue et conserve ses performances de pointe pour la transcription en anglais. La plateforme de Together AI intègre également Whisper Large v3 pour les charges de travail à l'échelle de la production, créant un écosystème robuste pour les développeurs qui construisent des applications pilotées par la voix.
Répondre aux besoins du marché
Cette annonce positionne Together AI comme un sérieux concurrent sur le marché ASR, en particulier pour les cas d'utilisation en temps réel et en streaming. Contrairement aux systèmes ASR traditionnels qui reposent sur des pipelines cloisonnés, Together AI propose une pile modulaire où la reconnaissance vocale (STT), la compréhension du langage naturel (NLU) et la synthèse vocale (TTS) peuvent fonctionner de manière cohérente sur la même infrastructure. Cela réduit la latence et permet aux développeurs d'inspecter et de manipuler les sorties intermédiaires, un différenciateur clé pour les agents vocaux en temps réel.
Des partenariats récents soulignent la stratégie de l'entreprise consistant à construire un écosystème ouvert et combinable. En avril 2026, Deepgram a intégré ses modèles ASR directement sur la plateforme de Together AI, permettant aux développeurs de combiner des modèles de reconnaissance vocale spécialisés avec l'infrastructure de Together AI. Cette flexibilité est de plus en plus précieuse à mesure que les charges de travail IA évoluent vers des architectures unifiées, combinant des capacités vocales, linguistiques et multimodales.
Impact sur l'industrie et les investisseurs
Les avancées de Together AI interviennent alors que l'entreprise cherche apparemment à lever des capitaux à une valorisation de 7,5 milliards de dollars, selon des rapports de mars 2026. L'intérêt des investisseurs reflète la demande croissante en infrastructure d'inférence haute performance, en particulier pour les systèmes d'IA vocaux et multimodaux. Avec plus de 450 000 développeurs et 200 modèles open source déjà pris en charge sur sa plateforme, Together AI est bien positionnée pour capitaliser sur cette dynamique.
Des concurrents comme Deepgram et Google dominent encore certains segments du marché ASR, mais l'accent mis par Together AI sur l'hébergement de modèles ouverts et les performances en temps réel pourrait lui permettre de conquérir une part de marché significative. L'intégration de la technologie ASR de NVIDIA renforce davantage sa crédibilité technique, notamment compte tenu du leadership de NVIDIA dans l'optimisation du matériel et des logiciels d'IA.
À mesure que les interfaces vocales deviennent plus intégrales aux applications grand public et aux entreprises, des solutions ASR à faible latence et évolutives comme celle de Together AI pourraient redéfinir les attentes des utilisateurs. Les développeurs, les investisseurs et les entreprises devraient suivre de près l'évolution de l'entreprise alors qu'elle continue d'affiner sa pile et d'élargir son écosystème.
Source de l'image : Shutterstock
Source: https://blockchain.news/news/together-ai-fastest-speech-to-text-parakeet-v3








