БиржаDEX+

Купить крипто Рынки Спотовая ФьючерсыGOLD Сбережения Центр событий

Еще

TL;DR: ниже я показываю метод интерпретации трансформероподобной модели на временных рядах, который работает как инструмент дебага с интервенционным протоколом,TL;DR: ниже я показываю метод интерпретации трансформероподобной модели на временных рядах, который работает как инструмент дебага с интервенционным протоколом,

Как деанонимизировать поведение трансформера на временных рядах: визуальная диагностика и фальсифицируемые тесты

Автор: ProBlockChain

Источник: ProBlockChain

2026/01/26 20:17

TL;DR: ниже я показываю метод интерпретации трансформероподобной модели на временных рядах, который работает как инструмент дебага с интервенционным протоколом, а не как банальная визуализация. Метод строит карту вклада входных сигналов в координатах время × масштаб × признак, и я проверяю ее через два фальсифицируемых теста: (1) подмену ключевых входных каналов на статистически правдоподобные суррогаты и (2) режимный контраст на естественной смене состояния входа. Цель — не пост-фактум проиллюстрировать веса конкретной предобученной нейросети, а деанонимизировать поведение модели: прямо и доказуемо увидеть ее внутреннюю стратегию чтения сигнала и проверяемо вмешаться в нее в рамках предсказуемого эксперимента.

Трансформероподобные модели все чаще используются как универсальные экстракторы структуры сложных временных сигналов: от телеметрии и логов до биосигналов и рыночной микроструктуры. Их практическая применимость обычно оценивается через метрики на выходе, но при этом сами модели остаются поведенчески анонимными: мы видим вход и прогноз, сопоставляя одно с другим, однако плохо понимаем, какие именно структуры входа определяют решение и почему модель переключается между разными режимами чтения сигнала.

На практике интерпретация таких моделей часто сводится к двум крайностям. Первая — модель считается черным ящиком, а попытки разобраться в причинах решения объявляются бесполезной философией. Вторая — строятся визуализации (чаще всего attention-карты), которые выглядят убедительно, но плохо отличают фоновую картинку от реально значимых зависимостей.

В этом тексте я предлагаю рассматривать интерпретацию обученной нейросети как инженерную задачу и накладывать на нее простое требование:

Под «деанонимизацией поведения модели» я буду понимать именно это: возможность восстановить, на какие компоненты входа опирается модель, как именно она распределяет значимость по времени и масштабам, и как это поведение меняется при смене режима — не за счет «интуитивных объяснений», а через наблюдаемые и проверяемые эффекты.

Важно: эта статья — не про торговую стратегию и не про сравнение архитектур. Конкретный домен здесь используется только как удобный пример среды, где сигнал имеет несколько масштабных факторов и модели нужно уметь между ними переключаться, режимы явно переключаются, а ошибки интерпретации имеют конкретные проявления. Меня интересует инструментальная сторона: как превратить «просто очередную архитектуру, которая что-то предсказывает» в объект, который можно диагностировать, тестировать и отлаживать.

Итак, модель деанонимизирована, если мы можем:

назвать якорные сигналы (что является системой координат),
увидеть временной профиль чтения (модель смотрит на последние 20 секунд или на хвост 2 минуты),
увидеть масштабную стратегию (5m vs 1h и т.п.),
поймать переключение режима (структура вкладов меняется качественно),
иметь возможность сломать поведение ожидаемым вмешательством.

1. Немного исходных деталей из предметной области: проблема intra-minute сигналов

На микро-таймскейлах (секунды — десятки секунд) рыночная статистика снаружи почти всегда выглядит как шум.
Но любой, кто работал со стаканом и лентой сделок, знает: даже в этой зоне есть повторяющиеся структуры, которые не сводятся к случайным колебаниям:

импульсы и переключения ликвидности
режимы «тонкого стакана»
всплески по трейдам
доминирование bid/ask давления
резкие смены характера движения

Проблема в том, что классические методы анализа временных рядов на таких масштабах часто оказываются либо слишком тяжелыми, либо слишком хрупкими: они требуют сильных предположений о стационарности, быстро теряют устойчивость при смене режима и плохо переносят высокую размерность микроструктурных признаков.

В какой-то момент достаточно сложная трансформероподобная модель должна начать выглядеть не как «игрушка», а как универсальный анализатор сигналов — по сути, как измерительный прибор, который способен сжимать сложный вход в компактное решение.

Но здесь также неминуемо возникает ключевой разрыв: нейросеть обычно воспринимается как черный ящик.

Если модель «что-то предсказывает» — это еще можно принять. Но если мы хотим использовать ее как исследовательский инструмент, возникают более жесткие вопросы: что именно она использует во входе, на каких масштабах строит решение, и как меняется ее стратегия чтения при смене режима.

Что я сделал

Я обучил трансформероподобную модель на двухмасштабном временном сигнале и добавил к ней то, что в прикладных задачах обычно остается за кадром: интерпретационный слой, который можно использовать как исследовательский инструмент и как способ прямого дебага.

В результате модель не только выдает прогноз, но и позволяет наблюдать, как именно она читает вход:

где по времени она концентрирует информацию
какой масштаб доминирует на каждом сигнале (секунды / десятки секунд / минуты)
какие входные сигналы оказываются согласованно важными
как эта картина перестраивается при смене внутреннего режима

Смысл здесь не в том, чтобы «объяснить» нейросеть словами, а в том, чтобы сделать ее поведение доступным для наблюдения и проверяемым экспериментами.

Данные

Чтобы работать с intra-minute динамикой, я написал сборщик, который сохранял срезы микроструктуры с периодом 10 секунд. На каждом шаге фиксировались несколько групп признаков, которые покрывают и быстрый уровень микродвижений, и более медленный контекст:

состояние стакана
агрегированные сделки
внешний контекст как прокси «температуры» рынка
свечной контекст 5m и 1h (примерно 2 часа истории 5m и 48 часов истории 1h)

Сбор шел около трех месяцев на нескольких инструментах, и намеренно захватывал периоды с разными торговыми режимами (в том числе низколиквидные и аномальные интервалы). Это не идеальный бенчмарк, но достаточно разнообразный временной отрезок, чтобы модель не училась на одном статичном состоянии входа.

Почему multi-scale вообще важен

В таких данных полезный сигнал почти никогда не живет в одном масштабе. В зависимости от ситуации модель может опираться на разные окна наблюдения:

чаще всего важны последние 10–30 секунд (локальные импульсы, микро-дисбаланс)
иногда — последние 2–5 минут (инерция, затухающие эффекты, накопление давления)
в другие моменты — более медленный контекст и режим входа, который проявляется на минутных/часовых масштабах
а иногда важнее не направление движения, а комбинация разнонаправленных сигналов

Поэтому я изначально строил обработку входа как многомасштабную. Но дальше возникает более интересный вопрос уже не про архитектуру, а про поведение модели: можно ли наблюдать, когда и какой масштаб реально становится доминирующим, и как это переключение связано со сменой режима во входных данных?

2. Теперь главное: тепловая карта вклада входных сигналов

После обучения я строю тепловую карту Integrated Gradients по входу модели в координатах:

время × масштаб × сигнал

типичная тепловая карта двух масштабных сигналов

Повторюсь, что смысл этой карты не в том, чтобы объяснить поведение нейросети, и не в том, чтобы объявить найденные зависимости причинностью в строгом смысле (attention != causality). Я использую ее чтобы сделать наблюдаемым, какие именно компоненты входа участвуют в решении, и как это меняется при смене режима.

Integrated Gradients в общем виде

Для выбранного выхода модели Integrated Gradients можно оценить как сумму по шагам:

# input: x (реальный вход), x0 (baseline), steps = M for m in 1..M: xm = x0 + (m/M) * (x - x0) IG += dF(xm) / dx # градиент выхода по входу IG = (x - x0) * (IG / M)

Интуитивным образом это «усредненный градиентный вклад»: насколько изменение конкретного входного элемента влияет на выход модели, если двигаться от baseline к реальному входу. В моем случае этот вклад вычисляется для каждой координаты время × масштаб × сигнал, после чего визуализируется как тепловая карта.

Про baseline (x0) в Integrated Gradients

Я пробовал два варианта: нулевой нормализованный сигнал и медиану окна.

В задачах с резким ускорением движения mean-baseline давал систематический перекос: вклад ускоренных компонент начинал доминировать даже там, где модель визуально работала иначе. Поэтому я использую нулевой baseline как более нейтральную точку отсчета.

Почему не просто attention

Attention-карты часто выглядят убедительно, но они в первую очередь показывают структуру механизма внимания (куда модель смотрит), а не гарантированный вклад входного сигнала в выбранный выход. На практике эти вещи могут расходиться: итоговое решение формируется через остаточные связи и последующие преобразования даже при визуально убедительном attention.

Integrated Gradients лучше подходит для диагностической задачи (хотя там есть свои технические сложности с категориальными входами), потому что напрямую измеряет вклад входных компонент в выход модели. При этом любая карта важности остается гипотезой о том, что модель использует — поэтому дальше я отдельно проверяю эти карты интервенциями.

Что видно сходу

В решениях модели сразу стабильно выделялась связка «дельта инструмента + дельта BTC»: локальное движение и общий рыночный фон ведут себя как якорные каналы, относительно которых организуются остальные признаки.
В многомасштабной части входа вклад контекста 5m и 1h оказался сопоставимым и динамическим, но не симметричным: модель действительно удерживает одновременно текущую локальную динамику и более медленный режимный контекст в зависимости от ситуации, интерпретирует их по-разному, и не выбирает всегда только один уровень.
Слабоволатильные категориальные признаки имеют вторичный характер, активизируясь только там, где им положено работать — на стыках режимов.

Инженерный эпизод: баг в каузальности и маске внимания

В какой-то момент я поймал чисто разрабскую историю: модель по метрикам после выкатки очередного изменения выглядела в целом работоспособной, но тепловая карта вкладов стала вести себя подозрительно. Вместо ожидаемого затухания по времени вклад внезапно стал почти симметричным по окну — с упором одновременно на начало и конец таймслота, как будто временное затухание не работает как задумано.

U-образное распределение IG

После фикса каузальности SDPA (is_causal=True вместо is_causal=False) карта сразу собралась воедино как на первой картинке: вклад прижался к недавним строкам, а дальний контекст начал нормально гаснуть.

3. Ключевая проверка

Чтобы убедиться, что тепловая карта вкладов действительно отражает зависимости модели (а не является визуально приятной иллюстрацией, которую можно нарисовать почти для чего угодно), я проверил ее фальсифицируемыми вмешательствами во вход.

Эксперимент 1 — подмена двух «якорных» каналов

Я взял два входных канала, которые на картах стабильно выглядели как доминирующие — бегущую дельту цены инструмента и дельту BTC — и подменил их статистически правдоподобными суррогатами (block-shuffle), сохранив типичный масштаб и характер флуктуаций, но разрушив привязку к текущему событию.

После этой подмены модель на том же тестовом прогоне резко деградировала: прогнозы схлопнулись к нейтральному состоянию (по сути «почти в ноль» по уверенности/силе сигнала), а сама структура внутренней важности распалась. Вместо согласованной картины вкладов по микроструктурным признакам модель начала показывать отсутствие комплексного анализа.

Деградировавшее поведение сети на поддельном якорном сигнале

Полезно также взглянуть на карту разницы двух прогонов:

Дельты IG на том же входном датасете: до и после block-shuffle

Очевидно, сколь глобальное воздействие интервенция произвела на сеть. Проще говоря, дельта инструмента и дельта BTC оказались для нашей модели якорями интерпретации: без них она теряет систему координат и перестает собирать остальные сигналы в единое решение.

Для контроля я аналогично подменял вторичные каналы: деградация была на два порядка менее контрастной и не столь глобальной — то есть эффект специфичен именно для «якорей», а не для факта подмены как такового.

Дельты IG после block-shuffle пятиминутного imbalance_03

Также тут были тонко подсвечены внутренние связи между сигналами, поскольку за конкретным сигналом начали деградировать его корреляты.

Почему это работает как фальсифицирующий тест

Этот эксперимент полезен именно тем, что это не «красивое объяснение задним числом», а вмешательство с предсказуемым эффектом на уже обученной модели.

Подмена сильнее «естественных» sanity-check’ов по смыслу. Мы не просто наблюдаем корреляции, а искусственно нарушаем ключевую часть входа и проверяем, сохранится ли связная структура решения.
Это похоже на реальную деградацию входных данных. В практических системах отдельный канал может начать «мусорить», оставаясь в тех же численных пределах — и важно понимать, устойчива ли модель к такому сценарию.
Эффект получается диагностически контрастным. Когда прогноз схлопывается к нейтрали, это видно не только по метрике, но и по распаду структуры вкладов: модель теряет согласованную интерпретацию входа и перестает реагировать на вторичные флуктуации.
Тест напрямую поддерживает идею «нейросеть != черный ящик». Мы не гадаем, что модель имела в виду, а делаем проверяемое вмешательство и наблюдаем, как именно перестраивается ее внутреннее использование сигналов.

Эксперимент 2 — тонкая смена режима на эпизоде обвала

Второй тест был более «естественным»: без синтетической подмены входа я взял конкретный эпизод резкого перехода рынка в стрессовый режим (конкретный исторический обвал) и сравнил два прогона модели на одном и том же инструменте, отличающиеся только выбранным временным окном:

широкое окно (21:00 UTC → 00:00 UTC): включает «прелюдию» и начало движения
непосредственно окно паники (00:00 UTC → 03:00 UTC): режим чистого обвала

Разница между тепловыми картами вкладов оказалась тонкой, но устойчивой. В окне обвала заметно усилился режимный компонент, связанный с экстремальной волатильностью, и одновременно вырос вклад часового масштаба (1h), тогда как 5-минутный (5m) оставался сравнительно вторичным и «приглушенным».

Это выглядит как переключение стратегии интерпретации входа: происходящее начинает обрабатываться моделью не как локальная турбулентность на коротком масштабе, а как системный режим, где доминирует более медленный макроконтекст, а не только микроструктурный шум.

Режим подготовки к панике

Режим обвала

Карта дельт IG до и после смены режима

Присмотримся внимательнее

Этот режимный тест сильнее многих классических проверок именно тем, что здесь нет искусственного вмешательства: модель сталкивается с естественной сменой режима на одном и том же инструменте и на одном и том же наборе признаков.

Он проверяет не умеет ли сеть предсказывать, а умеет ли она переключать стратегию интерпретации входа, когда входной процесс переходит из обычного состояния в стрессовый/панический режим и как именно это работает.
Он дает наблюдаемый и содержательный эффект: в фазе обвала резко усиливается вклад часового масштаба, тогда как 5-минутный остается сравнительно приглушенным. То есть модель начинает трактовать происходящее как режимное событие, а не как локальную турбулентность. Такую границу между локальным шумом и макро-режимом трудно извлечь простыми индикаторами без явной модели переключения режимов.
И главное: это прямое подтверждение ключевой идеи. Тепловая карта здесь не просто подсвечивает важность, а фиксирует смену внутреннего режима чтения входа — визуально различимо, что модель переключилась на другой фильтр интерпретации.

4. Почему я думаю, что это полезно не только мне

Практика работы с временными рядами часто сводится к двум крайностям:

либо это «edge-индикаторы и простая статистика» — прозрачные, но ограниченные по выразительности;
либо «нейросеть сама разберется» — выразительно, но без понимания того, что именно делает модель внутри.

В таком виде подход полезен не только для «предсказания следующего шага», но и для более прикладных задач:

выявление режимов (в том числе слабых и переходных)
анализ ошибок модели и причин ее деградации
поиск артефактов и потенциальных утечек/ложных зависимостей
тонкая настройка временных весов, decay и состава контекста
проектирование новых признаков и масштабов на основе наблюдаемой структуры вкладов
мониторинг изменения поведения модели во времени и диагностика дрейфа режима входа

Ограничения

Тут важно честно зафиксировать границы применимости метода.

Даже при наличии интервенционных тестов это не доказательство причинности в строгом смысле: мы наблюдаем причинно-значимые зависимости внутри модели, но это не означает, что они отражают некие «законы предметной области».
Карты важности (включая attention/градиентные методы) могут быть нестабильны: меняться от инициализации, небольших сдвигов входа, а также от выбранного baseline (в моем случае это были zeroes-like нормализованных рядов) и параметров расчета.
И потому любые выводы из интерпретации обязательно нужно проверять на данных вне исходной выборки и/или контролируемыми вмешательствами — иначе интерпретация легко превращается в правдоподобную историю задним числом.

Но даже с этими ограничениями карта вкладов уже дает практическую ценность: это понятный язык, на котором можно обсуждать поведение модели и заниматься ее отладкой как инженерной системы, а не воспринимать как «магию».

Что дальше

В ближайших итерациях я хочу:

сделать более строгую валидацию интерпретации, сравнив несколько подходов (градиентные методы, ablation/patching и альтернативные схемы визуализации вкладов);
подумать над альтернативой Layer Integrated Gradients для категориальных режимных фич, текущий подход имеет очевидные проблемы с подгонкой масштабов;
попробовать автоматизировать поиск режимов через кластеризацию карт вкладов статметодами ML — чтобы выделять типичные состояния и переходы по самим паттернам поведения модели.

Вопросы к сообществу

Было бы интересно получить обратную связь от людей, которые работают с временными рядами — в первую очередь с инженерной/исследовательской стороны.

Какие проверки интерпретации вы бы считали обязательными, чтобы считать карты вкладов рабочим инструментом дебага, а не просто иллюстрацией?
(«предсказанное» поведение Integrated Gradients, attention roll-out, patching/ablation, counterfactual-тесты и т.д.)
Какая визуализация на практике наиболее полезна для анализа многомасштабных временных рядов?
(heatmap по масштабу, важность сигналов во времени, режимные подписи, событийные срезы, сравнение окон, difference-карты)
Какие режимы вы бы хотели уметь выделять автоматически по поведению модели и структуре вкладов?
(всплеск агрессии, смена направления, ложные импульсы/пробои, переход в стрессовый режим)
Насколько вам вообще кажется полезным подход «нейросеть как исследовательский прибор» — то есть модель как анализатор структуры входа, а не только как предсказатель?
Или, по вашему опыту, интерпретация почти всегда слишком нестабильна, и разумнее опираться только на сырые метрики качества?

Источник

Отказ от ответственности: Статьи, размещенные на этом веб-сайте, взяты из общедоступных источников и предоставляются исключительно в информационных целях. Они не обязательно отражают точку зрения MEXC. Все права принадлежат первоисточникам. Если вы считаете, что какой-либо контент нарушает права третьих лиц, пожалуйста, обратитесь по адресу service@support.mexc.com для его удаления. MEXC не дает никаких гарантий в отношении точности, полноты или своевременности контента и не несет ответственности за любые действия, предпринятые на основе предоставленной информации. Контент не является финансовой, юридической или иной профессиональной консультацией и не должен рассматриваться как рекомендация или одобрение со стороны MEXC.