«Данные закончились» — это про одну ось из шести. Пять остальных работают. Одномерные прогнозы — мусор.
Зайдите в любой айтишный-чат.
«Из архитектуры выжали всё». «Данные закончились». «Модели будут деградировать».
Звучит умно. Проблема? Это полная ерунда.
Не потому что эти люди глупы. Часто это крутые разработчики. Проблема в том, что они видят одну ось — supervised pre-training на интернет-текстах — и думают, что это весь AI.
Ось упёрлась? Значит, AI упёрся.
Нет. Не значит.
2012 год.
Кто-то говорит: «Мы собрали все фотографии кошек в интернете. Нейросети достигли потолка».
Технически верно. Для той парадигмы — да, потолок.
Как прогноз? Катастрофически неверно.
Через год — AlexNet. И понеслось.
То же самое сейчас. «Данные закончились» = «качественные тексты для supervised pre-training закончились».
Это правда.
Но это одна ось из шести.
Начнём с того, о чём все кричат.
Scaling laws Каплана (2020): больше данных + больше compute = лучше модель. Красивая формула. Работала отлично.
До определённого момента.
Что сейчас:
Качественного текста в интернете ~15-20 трлн токенов
Большую часть уже скормили моделям
Diminishing returns
Но это не конец.
Data scaling трансформируется:
Синтетические данные — модели генерят данные для себя и других
Мультимодальность — видео, аудио, сенсоры. Триллионы нетронутых токенов
Специализированные корпуса — медицина, юриспруденция, наука
Текст в интернете — это не все данные в мире. Даже близко.
Окей, смотрите.
Все говорят «compute scaling» как будто это одна штука.
Это две штуки.
Классика: больше GPU × больше времени = умнее модель.
GPT-4 стоил ~$100M. Следующие поколения — миллиарды.
Да, тут экономический и физический потолок виден.
Это прорыв 2024 года. И почти все его пропустили.
Вместо того чтобы делать модель умнее при обучении — даём ей больше времени «думать» при ответе.
Серия o1/o3 от OpenAI: та же базовая модель решает задачи разной сложности с разным бюджетом на reasoning.
Результат? 30-50% прироста на сложных задачах. Без изменения весов.
Это как разница между «выучил формулу» и «имею время подумать».
Две разные оси. Обе работают. Независимо.
Каждый год модели становятся эффективнее при том же compute.
История:
2017: Transformer убил RNN/LSTM — прорыв в параллелизации
2020: Sparse attention — квадратичная сложность идёт лесом
2022: FlashAttention — 2-4x ускорение, качество то же
2023: Mixture of Experts — масштабируем параметры без линейного роста compute
Что дальше:
State Space Models (Mamba) — линейная сложность для длинных контекстов
Гибриды Transformer + SSM
Новые механизмы внимания
Эмпирика: каждые 1-2 года архитектурные улучшения = эквивалент 2-3x compute при тех же затратах.
Это прекрасно.
Вот что важно понять.
Текущие LLM обучены на тексте. Но информация существует не только в тексте.
|
Модальность |
Объём |
Статус |
|---|---|---|
|
Текст |
~20 трлн токенов |
80%+ использовано |
|
Изображения |
~1 трлн+ |
Активно осваивается |
|
Видео |
Эксабайты |
Начальная стадия |
|
Аудио |
Петабайты |
Частично |
|
3D/пространственные |
Терабайты |
Ранняя стадия |
|
Сенсорные данные |
∞ |
Не начато |
GPT-4V, Gemini, Claude 3 — первые шаги.
Следующий рубеж — embodied AI: модели учатся через взаимодействие с физическим или симулированным миром.
Данные, которые невозможно получить из интернета. Принципиально новый тип информации.
Параметрическое знание (то, что зашито в веса) — это тупик.
Устаревает с момента обучения
Ограничено размером модели
Галлюцинации
Tool use — это решение.
Модель не пытается знать всё. Модель умеет использовать инструменты:
Поиск — актуальная информация
Калькулятор/код — точные вычисления
API — внешние системы
Базы данных — структурированные знания
Другие модели — специализированные агенты
Практический пример: Claude с доступом к поиску не нужно переобучать, чтобы он знал результаты вчерашних выборов.
Это фундаментальный сдвиг в том, что значит «умная модель».
Агентные системы идут дальше: декомпозиция задачи → планирование → выполнение → проверка.
Отдельное измерение capabilities. Ортогональное к «сырому интеллекту».
Supervised learning на человеческих данных — не единственный способ.
RLHF:
Модель улучшается через обратную связь, а не через примеры. Оптимизирует поведение, которое сложно показать явно.
Self-play и synthetic data:
DeepSeek-R1 показал: модель может улучшать reasoning через самостоятельную генерацию и фильтрацию цепочек рассуждений.
Constitutional AI:
Модель учится следовать принципам, а не копировать примеры.
Ключевой инсайт: эти методы позволяют становиться умнее без новых человеческих данных.
Signal — из структуры задачи, а не из готовых ответов.
Читаете новость об AI? Слышите прогноз?
Задайте вопрос: по какой оси изменение?
«OpenAI выпустил o3, который решает ARC-AGI на 88%»
→ Ось 2 (inference-time compute). Та же модель, больше бюджета на reasoning.
«Данные для обучения LLM заканчиваются»
→ Верно для Оси 1. Не затрагивает оси 2-6.
«Llama 3.3 70B показывает качество Llama 3.1 405B»
→ Ось 3 (distillation, algorithmic efficiency).
«Claude научился использовать компьютер»
→ Ось 5 (tool use).
«LLM упёрлись в потолок» — без уточнения по какой оси
«Архитектура исчерпана» — игнорирует оси 3, 4, 6
«Без данных нет прогресса» — игнорирует RL, self-play, synthetic data
Линейная экстраполяция текущих ограничений
Ну и ну.
Парадокс: люди, работающие с LLM ежедневно, часто делают худшие долгосрочные прогнозы.
Почему?
Проклятие знания — видят ограничения своей области, слепы к прорывам в соседних
Якорение — текущие проблемы кажутся фундаментальными
Информационный лаг — публичная информация отстаёт от frontier research на 6-12 месяцев
Линейное мышление — экспоненциальные процессы недооцениваются
Факты:
2020: консенсус — GPT-3 это потолок scaling laws
2022: нужны триллионы токенов для каждого улучшения
2023: reasoning невозможен без symbolic AI
Все эти «потолки» были пробиты.
Я не говорю, что AGI за углом.
Я говорю более скромную вещь: одномерные прогнозы почти всегда ошибочны.
Когда кто-то говорит «LLM исчерпали себя» — спросите: по какой из шести осей?
Если ответ «по всем» — красный флаг некалиброванной уверенности.
Модели будут развиваться. Не обязательно по тем осям, которые ожидаем. Возможно, медленнее, чем надеются оптимисты.
Почти наверняка — не так, как предсказывают пессимисты.
Вывод: вместо бинарных прогнозов отслеживайте прогресс по каждой оси отдельно. Обновляйте модели по мере появления новых данных.
Вот такой ликбез.
Источник


