گروه تحقیقات هوش مصنوعی Tether نسخه تولیدی متنباز TurboQuant را منتشر کرده است، الگوریتم فشردهسازی حافظهای که در اصل توسط Google Research توسعه یافته بود.
این انتشار بخشی از QVAC SDK 0.12.0 است و لپتاپها، گوشیها، دستگاههای لبه و شبکههای غیرمتمرکز را هدف قرار میدهد. این ابزار به مدلهای هوش مصنوعی محلی امکان میدهد بدون تکیه بر زیرساخت ابری، جلسات طولانیتری را مدیریت کنند.
این رویداد تحولی عملی در نحوه مدیریت وظایف حافظهبر توسط هوش مصنوعی روی دستگاه را نشان میدهد.
حافظه از دیرباز مانعی برای اجرای مدلهای هوش مصنوعی کارآمد روی سختافزار مصرفکننده بوده است. هنگامی که یک دستیار هوش مصنوعی یک سند یا مکالمه طولانی را پردازش میکند، آن متن را در چیزی به نام KV cache ذخیره میکند.
در حدود ۲۶۲٬۰۰۰ توکن، KV cache برای یک مدل ۴B میتواند به تنهایی حدود ۸ گیگابایت حافظه مصرف کند. چهار جلسه همزمان میتوانند این رقم را پیش از احتساب خود مدل به ۳۲ گیگابایت برسانند.
TurboQuant این مشکل را با فشردهسازی KV cache تا پنج برابر برطرف میکند و در عین حال کیفیت خروجی را نزدیک به مدل فشردهنشده حفظ میکند.
اکنون یک کاربر میتواند از دستیار مبتنی بر لپتاپ بخواهد یک سند حقوقی صد صفحهای را بدون آپلود آن به سرور راه دور تحلیل کند.
دانشجویان، توسعهدهندگان، روزنامهنگاران و پژوهشگران همگی میتوانند از جلسات هوش مصنوعی طولانیتر و آگاهتر از زمینه روی دستگاههایی که از قبل دارند بهرهمند شوند.
در سخن گفتن درباره دلایل گستردهتر پشت این انتشار، مدیرعامل Tether، Paolo Ardoino، به شکاف بین تحقیقات و نرمافزار عملی اشاره کرد.
"تحقیقات Google نشان داد که حافظه هوش مصنوعی میتواند بسیار کارآمدتر از آنچه اکثر مردم فرض میکردند فشرده شود،" او گفت. "کار ما این پیشرفت را به نرمافزار تولیدی میآورد که توسعهدهندگان، استارتاپها و کاربران واقعاً میتوانند با آن بسازند."
نسخه تولیدی شامل یک خط لوله کوانتیزاسیون کامل، آداپتورهای چارچوب، مستندات توسعهدهنده و پروفایلهای تنظیمشده برای بار کاری است.
این اجزا برای محیطهای واقعی خارج از مراکز داده فوقبزرگ طراحی شدهاند و حافظه محدود، سختافزار مختلط و استقرارهای حساس به تأخیر را پوشش میدهند.
TurboQuant به عنوان بخشی از QVAC SDK 0.12.0 عرضه میشود و مستقیماً در Fabric، یک مؤلفه اصلی پشته QVAC، ادغام شده است.
Fabric به عنوان یک فورک llama.cpp آغاز شد و از آن زمان به تدریج پیشرفتهای تحقیقاتی متعددی را در بر گرفته است. این SDK به توسعهدهندگان مجموعهای یکپارچه از ابزارها، کتابخانهها و اجزای زمان اجرا برای ساختن برنامههای هوش مصنوعی محلی ارائه میدهد.
برای استارتاپها و توسعهدهندگان مستقل، این امر این فرض را که محصولات بزرگ هوش مصنوعی نیاز به خوشههای GPU گرانقیمت دارند از بین میبرد.
تیمها اکنون میتوانند برای پنجرههای زمینه طولانیتر، بار کاری فایلهای بزرگتر و استقرار انعطافپذیر در سختافزار مصرفکننده و لبه طراحی کنند. این مسیرهای عملی برای ساختن محصولات هوش مصنوعی بدون معماری صرفاً ابری را باز میکند.
در پاسخ به نگرانیهای مربوط به حریم خصوصی داده و وابستگی به فضای ابری، Ardoino برای نگه داشتن وظایف هوش مصنوعی روی دستگاههای محلی استدلال کرد.
"مردم باید بتوانند از یک دستیار هوش مصنوعی بخواهند یک سند طولانی را بخواند یا اطلاعات خصوصی را پردازش کند بدون اینکه هر وظیفهای مجبور باشد از یک مرکز داده راه دور عبور کند،" او گفت. TurboQuant، در این معنا، به هوش مصنوعی محلی فضای عملیاتی بیشتری میدهد.
استراتژی Tether بر هوش مصنوعیای متمرکز است که به کاربران نزدیکتر اجرا میشود، در دستگاههای شخصی و شبکههای غیرمتمرکز. این شرکت کارایی و قابلیت حمل نرمافزار را به عنوان عوامل تعیینکننده در مرحله بعدی توسعه هوش مصنوعی میبیند، در کنار زیرساخت محاسباتی در مقیاس بزرگ.
این مطلب با عنوان Tether Brings Google's TurboQuant to Production, Unlocking Long-Context AI on Everyday Devices برای اولین بار در Blockonomi منتشر شد.


