TLDR : TurboQuant compresse la mémoire cache KV de l'IA jusqu'à cinq fois avec un impact minimal sur la qualité du modèle. La mise à niveau permet aux ordinateurs portables et aux téléphones d'exécuter des sessions d'IA plus longuesTLDR : TurboQuant compresse la mémoire cache KV de l'IA jusqu'à cinq fois avec un impact minimal sur la qualité du modèle. La mise à niveau permet aux ordinateurs portables et aux téléphones d'exécuter des sessions d'IA plus longues

Tether apporte TurboQuant de Google en production, permettant l'IA à long contexte sur les appareils du quotidien

Source : Blockonomi

2026/06/02 07:46

Temps de lecture : 4 min

AI$0.03153+2.93%

LONG$0.000736-0.64%

Pour tout commentaire ou toute question concernant ce contenu, veuillez nous contacter à l'adresse suivante : crypto.news@mexc.com

TLDR :

TurboQuant compresse la mémoire du cache KV de l'IA jusqu'à cinq fois avec un impact minimal sur la qualité du modèle.
La mise à niveau permet aux ordinateurs portables et aux téléphones d'exécuter des sessions d'IA plus longues sans dépendance au cloud.
Le QVAC SDK 0.12.0 intègre TurboQuant dans Fabric, élargissant les options de développement d'IA locale.
Tether vise à faire progresser l'IA axée sur la confidentialité en rapprochant l'inférence efficace des utilisateurs finaux.

Le groupe de recherche en IA de Tether a publié une version de production open-source de TurboQuant, un algorithme de compression de mémoire initialement développé par Google Research.

Cette version fait partie du QVAC SDK 0.12.0 et cible les ordinateurs portables, les téléphones, les appareils edge et les réseaux décentralisés. Elle permet aux modèles d'IA locaux de gérer des sessions plus longues sans dépendre d'une infrastructure cloud.

Cela marque un changement pratique dans la façon dont l'IA sur appareil gère les tâches gourmandes en mémoire.

TurboQuant compresse la mémoire de l'IA jusqu'à cinq fois

La mémoire a longtemps constitué un obstacle à l'exécution de modèles d'IA performants sur du matériel grand public. Lorsqu'un assistant IA traite un long document ou une conversation, il stocke ce contexte dans ce qu'on appelle le cache KV.

Avec environ 262 000 tokens, le cache KV d'un modèle 4B peut consommer à lui seul environ 8 Go de mémoire. Quatre sessions simultanées peuvent porter ce chiffre à 32 Go avant même de prendre en compte le modèle lui-même.

TurboQuant résout ce problème en compressant le cache KV jusqu'à cinq fois tout en maintenant une qualité de sortie proche d'un modèle non compressé.

Un utilisateur peut désormais demander à un assistant sur ordinateur portable d'analyser un document juridique de cent pages sans le télécharger vers un serveur distant.

Les étudiants, les développeurs, les journalistes et les chercheurs peuvent tous bénéficier de sessions d'IA plus longues et plus contextuelles sur les appareils qu'ils possèdent déjà.

Évoquant les raisons plus larges derrière cette publication, le PDG de Tether, Paolo Ardoino, a souligné le fossé entre la recherche et les logiciels pratiques.

"Les recherches de Google ont montré que la mémoire de l'IA pouvait être compressée bien plus efficacement que la plupart des gens ne le supposaient," a-t-il déclaré. "Notre travail intègre cette avancée dans un logiciel de production que les développeurs, les startups et les utilisateurs peuvent réellement utiliser pour construire."

La version de production comprend un pipeline de quantification complet, des adaptateurs de framework, une documentation développeur et des profils optimisés pour les charges de travail.

Ces composants sont conçus pour des environnements réels en dehors des centres de données hyperscale, couvrant la mémoire contrainte, le matériel mixte et les déploiements sensibles à la latence.

Le QVAC SDK 0.12.0 élargit les options de développement d'IA locale

TurboQuant est livré dans le cadre du QVAC SDK 0.12.0, intégré directement dans Fabric, un composant central de la pile QVAC.

Fabric a débuté comme un fork de llama.cpp et a depuis évolué pour intégrer de multiples avancées de recherche. Le SDK offre aux développeurs un ensemble unifié d'outils, de bibliothèques et de composants d'exécution pour créer des applications d'IA locales.

Pour les startups et les développeurs indépendants, cela supprime l'hypothèse selon laquelle les grands produits d'IA nécessitent des clusters GPU coûteux.

Les équipes peuvent désormais concevoir des fenêtres de contexte plus longues, des charges de travail de fichiers plus importantes et un déploiement flexible sur du matériel grand public et edge. Cela ouvre des voies pratiques pour créer des produits d'IA sans architecture exclusivement cloud.

Répondant aux préoccupations relatives à la confidentialité des données et à la dépendance au cloud, Ardoino a plaidé pour le maintien des tâches d'IA sur les appareils locaux.

"Les gens devraient pouvoir demander à un assistant IA de lire un long document ou de traiter des informations privées sans que chaque tâche soit forcée à passer par un centre de données distant," a-t-il déclaré. TurboQuant, en ce sens, donne à l'IA locale plus de marge de manœuvre opérationnelle.

La stratégie de Tether est centrée sur une IA qui fonctionne au plus près des utilisateurs, sur les appareils personnels et les réseaux décentralisés. L'entreprise considère l'efficacité logicielle et la portabilité comme des facteurs déterminants dans la prochaine phase du développement de l'IA, aux côtés d'une infrastructure de calcul à grande échelle.

L'article Tether Brings Google's TurboQuant to Production, Unlocking Long-Context AI on Everyday Devices est apparu en premier sur Blockonomi.

Opportunité de marché

Cours Gensyn(AI)

$0.03153

$0.03153$0.03153

-1.92%

USD

Graphique du prix de Gensyn (AI) en temps réel

SPACEX(PRE) Launchpad

Inscrivez-vous pour tenter un tirage gratuit

Clause de non-responsabilité : les articles republiés sur ce site proviennent de plateformes publiques et sont fournis à titre informatif uniquement. Ils ne reflètent pas nécessairement les opinions de MEXC. Tous les droits restent la propriété des auteurs d'origine. Si vous estimez qu'un contenu porte atteinte aux droits d'un tiers, veuillez contacter crypto.news@mexc.com pour demander sa suppression. MEXC ne garantit ni l'exactitude, ni l'exhaustivité, ni l'actualité des contenus, et décline toute responsabilité quant aux actions entreprises sur la base des informations fournies. Ces contenus ne constituent pas des conseils financiers, juridiques ou professionnels, et ne doivent pas être interprétés comme une recommandation ou une approbation de la part de MEXC.