Когда мы смотрим на очередное видео, где робот ловко перебирает предметы или открывает дверь, кажется, что будущее почти наступило, хотя в реальности даже самым продвинутые модели остаются талантливыми, но узкими специалистами. Их развитие упирается в сложности обучения: стоимость сборов траекторий, закрытые датасеты и портирование навыков между разными моделями.
Я Артем Лыков, ведущий RnD-разработчик в МТС Web Services. А параллельно — аспирант в Лаборатории интеллектуальной космической робототехники Сколтеха (руководитель Дмитрий Тетерюков), где лидирую направление когнитивной робототехники. Вместе с коллегами по лаборатории мы описали способ обойтись без многомесячных записей движений и сложных симуляций, опираясь на уже существующие VLA-модели и модульный агентный подход, позволяющий генерировать будущие действия робота прямо из картинки и текста, проверять их, править, повторять и в итоге добиваться результата, сравнимого со специализированными решениями. В этом материале я разберу архитектуру PhysicalAgent, покажу, как мы реализовали цикл Perceive → Plan → Reason → Act для роботов, и расскажу, чем нам помогли открытые видеомодели и как этот подход помогает переносить навыки между разными платформами.
СодержаниеДороговизна данных как вызов
Где взять дешевые данные?
Альтернативный путь — физические агенты
Преимущества подхода
Современные ИИ-агенты уже достаточно хорошо работают автономно: строят логические выводы, раскладывают задачи на этапы, итеративно используют инструменты. Но перенести все эти прекрасные возможности в дивный физический мир оказалось гораздо сложнее. Роботам нужно привязывать рассуждение к восприятию окружающей среды и физике — как собственной, так и мира вокруг.
Для когнитивной робототехники требуются данные, которые ОЧЕНЬ дорого стоят, а без них обучение невозможно.
Существующие подходы (RT-1/RT-2, OpenVLA, Isaac-GR00t и др.) используют модели vision-language-action (VLA), требующие дообучения под конкретного робота и задачи. Они эффективны в рамках обучающего распределения, но плохо переносятся на другие платформы, объекты и операции. Аналогично существующие модели для генерации действий показывают впечатляющие результаты, но требуют специально подготовленных датасетов «робот — сцена».
Один из самых больших open-source-датасетов для обучения когнитивных роботов — OpenX Embodiment. Он состоит почти из миллиона траекторий. Сложность в том, что датасет собран на манипуляторах. Это значит, что использовать его для роботов-гуманоидов практически невозможно.
Один из путей решения — использовать синтетические данные. Но между ними и реальным миром есть серьезный разрыв: мы можем классно обучить модель в симуляции, но получим плохой результат в настоящем мире.
Недавно появилась ИИ-модель Nvidia Cosmos Transfer, которая делает данные из симуляции более реалистичными. Такое преобразование обходится гораздо дешевле. NVIDIA заявляет, что за три дня с помощью этого метода они получили столько данных, сколько раньше собирали за три месяца.
Такие данные дали возможность частично решить проблему нехватки данных для VLA-моделей (Vision Language Action, «зрение — язык — действие»). Это продвинутые системы ИИ для робототехники, которые объединяют понимание изображений (Vision), естественного языка (Language) и генерацию физических действий (Action).
Преимущество VLA-моделей — в скорости. Мы подаем на вход картинку и задачу на естественном языке, а на выходе получаем действия робота. Но для этого нужны огромные мощности, которые не каждая компания может себе позволить.
NVIDIA вообще серьезно вкладывается в развитие когнитивной робототехники. В этом году они выложили в Open Source собственную модель для гуманоидов Gr00t. Она показывает высокие результаты — их не так просто воспроизвести в условиях других лабораторий, но мы склонны верить публичной информации о ней. Однако NVIDIA выложили в открытый доступ саму модель, но не данные для обучения.
Классно видеть, как мы продвигаемся вперед, но мне все же хотелось бы, чтобы когда-нибудь робот смог как человек: посмотрел в Википедии или на видеохостинге инструкцию, как что-то делать, — и так обучался. Но пока сковородка летит на пол вместе с содержимым. Реальный мир — не симуляция:
Что мы можем сделать, если инструкция с YouTube не подходит? Обучить модель на видеоимитации реального мира. Снова есть решение от NVIDIA — Cosmos, включающее в себя передовые модели мира виде диффузионных моделей генерации видео. Cosmos используют для более быстрой разработки физического ИИ у автономных транспортных средств (AV), роботов и агентов видеоаналитики. Именно она позволяет взять данные из симуляции и превратить их в реалистичные.
Чтобы обучить робота действию, мы можем сгенерировать видео, как он выполняет задачу в виртуальном мире. NVIDIA реализовала такой подход в Cosmos Predict. Видео генерируется моделью, которую специально обучили на большом количестве записей конкретного робота. В результате физика робота в видео точно повторяет его реальную физику в жизни: у него не появляется лишних пальцев или траекторий движения.
Еще в этом подходе используют модель, извлекающую данные из сгенерированного видео. Она тоже есть в открытом доступе. Но чтобы ее задействовать, нужно получить доступ к данным, на которых она обучена. Тогда появится возможность добавить туда свои данные и кастомизировать под собственного робота. Увы, применить это мы не можем, поэтому предлагаю просто порадоваться за NVIDIA — что такое они придумали и у них получилось.
Что нам остается? Либо собирать горы данных для обучения модели, либо изобрести другое решение. И мы смогли.
Ранние интеграции LLM показали, что модели могут связывать инструкции с исполняемыми навыками, используя оценки сцены. Но такие системы создают монолитные политики, где высокоуровневое рассуждение смешано с низкоуровневым контролем, что делает их трудными для переноса, требовательными к данным, зависимыми от конкретного робота.
Существует огромное количество моделей генерации видео, и многие из них доступны в Open Source и с публичным API. Мы задумались, а почему бы нам не применить агентную архитектуру и не использовать эти модели как есть, без обучения? Естественно, это снизит продуктивность, неизбежно будут появляться галлюцинации. Но и при работе с агентами мы можем запускать инструмент множество раз, прежде чем получим нужный результат.
Разработанная нами архитектура PhysicalAgent следует модульной философии, разделяя цикл Perceive → Plan → Reason → Act на этапы. Это повышает переносимость и позволяет отслеживать ход выполнения и своевременно планировать задачи — ключевое свойство для длинных манипуляций.
Мы использовали четыре агента:
генерации видео будущего действия,
мониторинга видео для проверки качества,
извлечения данных о движении робота,
выполнения навыка на реальном роботе.
После каждого этапа мы запускали агент мониторинга, так как прекращали создание видео дальше, если оно получилось плохое, — например, в нем нарушена физика мира. Вместо этого генерировали снова и снова, добавляя инструкции от агента мониторинга, чтобы избежать галлюцинаций.
После извлечения действия из робота в видео, проводили его в реальном мире. Если что-то шло не так (например, мы уронили объект, или переместили его не туда, или не смогли выполнить действие), возвращались на шаг назад и пробовали всё заново. Такой подход позволил нам вообще отказаться от сбора данных.
В результате наш агент функционирует на разных типах платформ: манипуляторе, роботе-гуманоиде, симуляторах. Нам больше не требуется обучать их на подготовленных заранее записях. Единственное, что нужно — обучить модели распознаванию движения на видео, что гораздо проще, чем обучить собственную модель с нуля.
Как вы видите, мы смогли разобраться с физикой жидкостей, тканей, сложных объектов. Даже научили робота разрезать яблоко пополам — сначала на видео, а затем он смог это повторить в реальной жизни.
Фишка в том, что открытые модели для генерации видео уже обучены на огромном количестве данных из сети — фильмах, демонстрациях и так далее. Все это есть в доступе, нам не надо ничего дополнительно объяснять ей об устройстве реального мира. Единственное, нам нужно добиться, чтобы модель реалистично представляла, как бы это сделал робот. И она справляется довольно неплохо.
Получили такие преимущества:
Универсальность. Подход работает на разных типах роботов. Нам не нужно обучать большие модели заново для переноса на другую платформу.
Экономичность. Агентный подход обходится дешевле, чем сбор данных с нуля.
Надежность. Итеративное планирование и исправление собственных ошибок обеспечивает результативность в 80%.
Масштабируемость подхода и его открытость. Мы можем добавлять другие инструменты или агентов при необходимости.
Память. Совершая действие, робот запоминает это и учится.
Источник


