БиржаDEX+

Купить крипто Рынки Спотовая Фьючерсы500X Сбережения Мероприятия

Еще

Обзор 2025

Когда мы смотрим на очередное видео, где робот ловко перебирает предметы или открывает дверь, кажется, что будущее почти наступило, хотя в реальности даже самымКогда мы смотрим на очередное видео, где робот ловко перебирает предметы или открывает дверь, кажется, что будущее почти наступило, хотя в реальности даже самым

Архитектура PhysicalAgent: как универсальные VLA-агенты могут стать альтернативой дорогому обучению

Автор: ProBlockChain

Источник: ProBlockChain

2025/12/29 19:00

Когда мы смотрим на очередное видео, где робот ловко перебирает предметы или открывает дверь, кажется, что будущее почти наступило, хотя в реальности даже самым продвинутые модели остаются талантливыми, но узкими специалистами. Их развитие упирается в сложности обучения: стоимость сборов траекторий, закрытые датасеты и портирование навыков между разными моделями.

Я Артем Лыков, ведущий RnD-разработчик в МТС Web Services. А параллельно — аспирант в Лаборатории интеллектуальной космической робототехники Сколтеха (руководитель Дмитрий Тетерюков), где лидирую направление когнитивной робототехники. Вместе с коллегами по лаборатории мы описали способ обойтись без многомесячных записей движений и сложных симуляций, опираясь на уже существующие VLA-модели и модульный агентный подход, позволяющий генерировать будущие действия робота прямо из картинки и текста, проверять их, править, повторять и в итоге добиваться результата, сравнимого со специализированными решениями. В этом материале я разберу архитектуру PhysicalAgent, покажу, как мы реализовали цикл Perceive → Plan → Reason → Act для роботов, и расскажу, чем нам помогли открытые видеомодели и как этот подход помогает переносить навыки между разными платформами.

Содержание

Дороговизна данных как вызов
Где взять дешевые данные?
Альтернативный путь — физические агенты
Преимущества подхода

Дороговизна данных как вызов

Современные ИИ-агенты уже достаточно хорошо работают автономно: строят логические выводы, раскладывают задачи на этапы, итеративно используют инструменты. Но перенести все эти прекрасные возможности в дивный физический мир оказалось гораздо сложнее. Роботам нужно привязывать рассуждение к восприятию окружающей среды и физике — как собственной, так и мира вокруг.

Для когнитивной робототехники требуются данные, которые ОЧЕНЬ дорого стоят, а без них обучение невозможно.

Существующие подходы (RT-1/RT-2, OpenVLA, Isaac-GR00t и др.) используют модели vision-language-action (VLA), требующие дообучения под конкретного робота и задачи. Они эффективны в рамках обучающего распределения, но плохо переносятся на другие платформы, объекты и операции. Аналогично существующие модели для генерации действий показывают впечатляющие результаты, но требуют специально подготовленных датасетов «робот — сцена».

Один из самых больших open-source-датасетов для обучения когнитивных роботов — OpenX Embodiment. Он состоит почти из миллиона траекторий. Сложность в том, что датасет собран на манипуляторах. Это значит, что использовать его для роботов-гуманоидов практически невозможно.

Где взять дешевые данные?

Один из путей решения — использовать синтетические данные. Но между ними и реальным миром есть серьезный разрыв: мы можем классно обучить модель в симуляции, но получим плохой результат в настоящем мире.

Недавно появилась ИИ-модель Nvidia Cosmos Transfer, которая делает данные из симуляции более реалистичными. Такое преобразование обходится гораздо дешевле. NVIDIA заявляет, что за три дня с помощью этого метода они получили столько данных, сколько раньше собирали за три месяца.

Такие данные дали возможность частично решить проблему нехватки данных для VLA-моделей (Vision Language Action, «зрение — язык — действие»). Это продвинутые системы ИИ для робототехники, которые объединяют понимание изображений (Vision), естественного языка (Language) и генерацию физических действий (Action).

Преимущество VLA-моделей — в скорости. Мы подаем на вход картинку и задачу на естественном языке, а на выходе получаем действия робота. Но для этого нужны огромные мощности, которые не каждая компания может себе позволить.

NVIDIA вообще серьезно вкладывается в развитие когнитивной робототехники. В этом году они выложили в Open Source собственную модель для гуманоидов Gr00t. Она показывает высокие результаты — их не так просто воспроизвести в условиях других лабораторий, но мы склонны верить публичной информации о ней. Однако NVIDIA выложили в открытый доступ саму модель, но не данные для обучения.

Классно видеть, как мы продвигаемся вперед, но мне все же хотелось бы, чтобы когда-нибудь робот смог как человек: посмотрел в Википедии или на видеохостинге инструкцию, как что-то делать, — и так обучался. Но пока сковородка летит на пол вместе с содержимым. Реальный мир — не симуляция:

Что мы можем сделать, если инструкция с YouTube не подходит? Обучить модель на видеоимитации реального мира. Снова есть решение от NVIDIA — Cosmos, включающее в себя передовые модели мира виде диффузионных моделей генерации видео. Cosmos используют для более быстрой разработки физического ИИ у автономных транспортных средств (AV), роботов и агентов видеоаналитики. Именно она позволяет взять данные из симуляции и превратить их в реалистичные.

Чтобы обучить робота действию, мы можем сгенерировать видео, как он выполняет задачу в виртуальном мире. NVIDIA реализовала такой подход в Cosmos Predict. Видео генерируется моделью, которую специально обучили на большом количестве записей конкретного робота. В результате физика робота в видео точно повторяет его реальную физику в жизни: у него не появляется лишних пальцев или траекторий движения.

Еще в этом подходе используют модель, извлекающую данные из сгенерированного видео. Она тоже есть в открытом доступе. Но чтобы ее задействовать, нужно получить доступ к данным, на которых она обучена. Тогда появится возможность добавить туда свои данные и кастомизировать под собственного робота. Увы, применить это мы не можем, поэтому предлагаю просто порадоваться за NVIDIA — что такое они придумали и у них получилось.

Что нам остается? Либо собирать горы данных для обучения модели, либо изобрести другое решение. И мы смогли.

Альтернативный путь — физические агенты

Ранние интеграции LLM показали, что модели могут связывать инструкции с исполняемыми навыками, используя оценки сцены. Но такие системы создают монолитные политики, где высокоуровневое рассуждение смешано с низкоуровневым контролем, что делает их трудными для переноса, требовательными к данным, зависимыми от конкретного робота.

Существует огромное количество моделей генерации видео, и многие из них доступны в Open Source и с публичным API. Мы задумались, а почему бы нам не применить агентную архитектуру и не использовать эти модели как есть, без обучения? Естественно, это снизит продуктивность, неизбежно будут появляться галлюцинации. Но и при работе с агентами мы можем запускать инструмент множество раз, прежде чем получим нужный результат.

Разработанная нами архитектура PhysicalAgent следует модульной философии, разделяя цикл Perceive → Plan → Reason → Act на этапы. Это повышает переносимость и позволяет отслеживать ход выполнения и своевременно планировать задачи — ключевое свойство для длинных манипуляций.

Мы использовали четыре агента:

генерации видео будущего действия,
мониторинга видео для проверки качества,
извлечения данных о движении робота,
выполнения навыка на реальном роботе.

После каждого этапа мы запускали агент мониторинга, так как прекращали создание видео дальше, если оно получилось плохое, — например, в нем нарушена физика мира. Вместо этого генерировали снова и снова, добавляя инструкции от агента мониторинга, чтобы избежать галлюцинаций.

После извлечения действия из робота в видео, проводили его в реальном мире. Если что-то шло не так (например, мы уронили объект, или переместили его не туда, или не смогли выполнить действие), возвращались на шаг назад и пробовали всё заново. Такой подход позволил нам вообще отказаться от сбора данных.

В результате наш агент функционирует на разных типах платформ: манипуляторе, роботе-гуманоиде, симуляторах. Нам больше не требуется обучать их на подготовленных заранее записях. Единственное, что нужно — обучить модели распознаванию движения на видео, что гораздо проще, чем обучить собственную модель с нуля.

Преимущества подхода

Видео работы

Как вы видите, мы смогли разобраться с физикой жидкостей, тканей, сложных объектов. Даже научили робота разрезать яблоко пополам — сначала на видео, а затем он смог это повторить в реальной жизни.

Фишка в том, что открытые модели для генерации видео уже обучены на огромном количестве данных из сети — фильмах, демонстрациях и так далее. Все это есть в доступе, нам не надо ничего дополнительно объяснять ей об устройстве реального мира. Единственное, нам нужно добиться, чтобы модель реалистично представляла, как бы это сделал робот. И она справляется довольно неплохо.

Получили такие преимущества:

Универсальность. Подход работает на разных типах роботов. Нам не нужно обучать большие модели заново для переноса на другую платформу.
Экономичность. Агентный подход обходится дешевле, чем сбор данных с нуля.
Надежность. Итеративное планирование и исправление собственных ошибок обеспечивает результативность в 80%.
Масштабируемость подхода и его открытость. Мы можем добавлять другие инструменты или агентов при необходимости.
Память. Совершая действие, робот запоминает это и учится.

Источник

Отказ от ответственности: Статьи, размещенные на этом веб-сайте, взяты из общедоступных источников и предоставляются исключительно в информационных целях. Они не обязательно отражают точку зрения MEXC. Все права принадлежат первоисточникам. Если вы считаете, что какой-либо контент нарушает права третьих лиц, пожалуйста, обратитесь по адресу service@support.mexc.com для его удаления. MEXC не дает никаких гарантий в отношении точности, полноты или своевременности контента и не несет ответственности за любые действия, предпринятые на основе предоставленной информации. Контент не является финансовой, юридической или иной профессиональной консультацией и не должен рассматриваться как рекомендация или одобрение со стороны MEXC.

Архитектура PhysicalAgent: как универсальные VLA-агенты могут стать альтернативой дорогому обучению

Дороговизна данных как вызов

Где взять дешевые данные?

Альтернативный путь — физические агенты

Преимущества подхода

Вам также может быть интересно

Давление на доллар США усиливается, поскольку неустанные следователи за трендом делают ставки против гринбека, сообщает BofA

Цена Ether выросла на 120% после того, как очередь на стейкинг обогнала очередь на выход

Strategy и BitMine продолжили гонку криптоказначейств

Популярные новости

Давление на доллар США усиливается, поскольку неустанные следователи за трендом делают ставки против гринбека, сообщает BofA

Цена Ether выросла на 120% после того, как очередь на стейкинг обогнала очередь на выход

Strategy и BitMine продолжили гонку криптоказначейств

Австралийский суд ликвидировал NGS Crypto

Крипто-детектив ZachXBT разоблачил мошенника Coinbase на 2 000 000 $ в Канаде

Цены на криптовалюту