БиржаDEX+

Купить крипто Рынки Спотовая ФьючерсыGOLD Сбережения Центр событий

Еще

TL;DR«Данные закончились» — это про одну ось из шести. Пять остальных работают. Одномерные прогнозы — мусор.Вот в чём проблемаЗайдите в любой айтишный-чат.«Из аTL;DR«Данные закончились» — это про одну ось из шести. Пять остальных работают. Одномерные прогнозы — мусор.Вот в чём проблемаЗайдите в любой айтишный-чат.«Из а

Шесть осей прогресса LLM: почему «данные закончились» — это заблуждение

Автор: ProBlockChain

Источник: ProBlockChain

2026/02/02 23:08

TL;DR

«Данные закончились» — это про одну ось из шести. Пять остальных работают. Одномерные прогнозы — мусор.

Вот в чём проблема

Зайдите в любой айтишный-чат.

«Из архитектуры выжали всё». «Данные закончились». «Модели будут деградировать».

Звучит умно. Проблема? Это полная ерунда.

Не потому что эти люди глупы. Часто это крутые разработчики. Проблема в том, что они видят одну ось — supervised pre-training на интернет-текстах — и думают, что это весь AI.

Ось упёрлась? Значит, AI упёрся.

Нет. Не значит.

Давайте честно: одномерное мышление — это ловушка

2012 год.

Кто-то говорит: «Мы собрали все фотографии кошек в интернете. Нейросети достигли потолка».

Технически верно. Для той парадигмы — да, потолок.

Как прогноз? Катастрофически неверно.

Через год — AlexNet. И понеслось.

То же самое сейчас. «Данные закончились» = «качественные тексты для supervised pre-training закончились».

Это правда.

Но это одна ось из шести.

Ось 1: Data Scaling — да, тут сложно

Начнём с того, о чём все кричат.

Scaling laws Каплана (2020): больше данных + больше compute = лучше модель. Красивая формула. Работала отлично.

До определённого момента.

Что сейчас:

Качественного текста в интернете ~15-20 трлн токенов
Большую часть уже скормили моделям
Diminishing returns

Но это не конец.

Data scaling трансформируется:

Синтетические данные — модели генерят данные для себя и других
Мультимодальность — видео, аудио, сенсоры. Триллионы нетронутых токенов
Специализированные корпуса — медицина, юриспруденция, наука

Текст в интернете — это не все данные в мире. Даже близко.

Ось 2: Compute Scaling — тут скрыт главный обман

Окей, смотрите.

Все говорят «compute scaling» как будто это одна штука.

Это две штуки.

Pre-training compute

Классика: больше GPU × больше времени = умнее модель.

GPT-4 стоил ~$100M. Следующие поколения — миллиарды.

Да, тут экономический и физический потолок виден.

Inference-time compute

Это прорыв 2024 года. И почти все его пропустили.

Вместо того чтобы делать модель умнее при обучении — даём ей больше времени «думать» при ответе.

Серия o1/o3 от OpenAI: та же базовая модель решает задачи разной сложности с разным бюджетом на reasoning.

Результат? 30-50% прироста на сложных задачах. Без изменения весов.

Это как разница между «выучил формулу» и «имею время подумать».

Две разные оси. Обе работают. Независимо.

Ось 3: Algorithmic Efficiency — делаем больше за те же деньги

Каждый год модели становятся эффективнее при том же compute.

История:

2017: Transformer убил RNN/LSTM — прорыв в параллелизации
2020: Sparse attention — квадратичная сложность идёт лесом
2022: FlashAttention — 2-4x ускорение, качество то же
2023: Mixture of Experts — масштабируем параметры без линейного роста compute

Что дальше:

State Space Models (Mamba) — линейная сложность для длинных контекстов
Гибриды Transformer + SSM
Новые механизмы внимания

Эмпирика: каждые 1-2 года архитектурные улучшения = эквивалент 2-3x compute при тех же затратах.

Это прекрасно.

Ось 4: Модальности — текст это только начало

Вот что важно понять.

Текущие LLM обучены на тексте. Но информация существует не только в тексте.

Модальность	Объём	Статус
Текст	~20 трлн токенов	80%+ использовано
Изображения	~1 трлн+	Активно осваивается
Видео	Эксабайты	Начальная стадия
Аудио	Петабайты	Частично
3D/пространственные	Терабайты	Ранняя стадия
Сенсорные данные	∞	Не начато

GPT-4V, Gemini, Claude 3 — первые шаги.

Следующий рубеж — embodied AI: модели учатся через взаимодействие с физическим или симулированным миром.

Данные, которые невозможно получить из интернета. Принципиально новый тип информации.

Ось 5: Tool Use и Agents — обход ограничений

Параметрическое знание (то, что зашито в веса) — это тупик.

Устаревает с момента обучения
Ограничено размером модели
Галлюцинации

Tool use — это решение.

Модель не пытается знать всё. Модель умеет использовать инструменты:

Поиск — актуальная информация
Калькулятор/код — точные вычисления
API — внешние системы
Базы данных — структурированные знания
Другие модели — специализированные агенты

Практический пример: Claude с доступом к поиску не нужно переобучать, чтобы он знал результаты вчерашних выборов.

Это фундаментальный сдвиг в том, что значит «умная модель».

Агентные системы идут дальше: декомпозиция задачи → планирование → выполнение → проверка.

Отдельное измерение capabilities. Ортогональное к «сырому интеллекту».

Ось 6: RL и Self-Play — обучение без людей

Supervised learning на человеческих данных — не единственный способ.

RLHF:
Модель улучшается через обратную связь, а не через примеры. Оптимизирует поведение, которое сложно показать явно.

Self-play и synthetic data:
DeepSeek-R1 показал: модель может улучшать reasoning через самостоятельную генерацию и фильтрацию цепочек рассуждений.

Constitutional AI:
Модель учится следовать принципам, а не копировать примеры.

Ключевой инсайт: эти методы позволяют становиться умнее без новых человеческих данных.

Signal — из структуры задачи, а не из готовых ответов.

Как использовать эту модель

Читаете новость об AI? Слышите прогноз?

Задайте вопрос: по какой оси изменение?

Примеры

«OpenAI выпустил o3, который решает ARC-AGI на 88%»
→ Ось 2 (inference-time compute). Та же модель, больше бюджета на reasoning.

«Данные для обучения LLM заканчиваются»
→ Верно для Оси 1. Не затрагивает оси 2-6.

«Llama 3.3 70B показывает качество Llama 3.1 405B»
→ Ось 3 (distillation, algorithmic efficiency).

«Claude научился использовать компьютер»
→ Ось 5 (tool use).

Красные флаги

«LLM упёрлись в потолок» — без уточнения по какой оси
«Архитектура исчерпана» — игнорирует оси 3, 4, 6
«Без данных нет прогресса» — игнорирует RL, self-play, synthetic data
Линейная экстраполяция текущих ограничений

Ну и ну.

Почему эксперты ошибаются

Парадокс: люди, работающие с LLM ежедневно, часто делают худшие долгосрочные прогнозы.

Почему?

Проклятие знания — видят ограничения своей области, слепы к прорывам в соседних
Якорение — текущие проблемы кажутся фундаментальными
Информационный лаг — публичная информация отстаёт от frontier research на 6-12 месяцев
Линейное мышление — экспоненциальные процессы недооцениваются

Факты:

2020: консенсус — GPT-3 это потолок scaling laws
2022: нужны триллионы токенов для каждого улучшения
2023: reasoning невозможен без symbolic AI

Все эти «потолки» были пробиты.

Заключение

Я не говорю, что AGI за углом.

Я говорю более скромную вещь: одномерные прогнозы почти всегда ошибочны.

Когда кто-то говорит «LLM исчерпали себя» — спросите: по какой из шести осей?

Если ответ «по всем» — красный флаг некалиброванной уверенности.

Модели будут развиваться. Не обязательно по тем осям, которые ожидаем. Возможно, медленнее, чем надеются оптимисты.

Почти наверняка — не так, как предсказывают пессимисты.

Вывод: вместо бинарных прогнозов отслеживайте прогресс по каждой оси отдельно. Обновляйте модели по мере появления новых данных.

Вот такой ликбез.

Источник

Отказ от ответственности: Статьи, размещенные на этом веб-сайте, взяты из общедоступных источников и предоставляются исключительно в информационных целях. Они не обязательно отражают точку зрения MEXC. Все права принадлежат первоисточникам. Если вы считаете, что какой-либо контент нарушает права третьих лиц, пожалуйста, обратитесь по адресу service@support.mexc.com для его удаления. MEXC не дает никаких гарантий в отношении точности, полноты или своевременности контента и не несет ответственности за любые действия, предпринятые на основе предоставленной информации. Контент не является финансовой, юридической или иной профессиональной консультацией и не должен рассматриваться как рекомендация или одобрение со стороны MEXC.