Toto — это трансформер только с декодером, созданный для прогнозирования многомерных временных рядов. Он адаптирует инновации из больших языковых моделей — таких как RMSNorm, SwiGLU и ротационные вложения — представляя при этом новый механизм "Пропорционального факторизованного пространственно-временного внимания". Эта конструкция балансирует внимание по времени и пространству для эффективной обработки сложных данных высокой кардинальности. В сочетании с надежной вероятностной прогнозной головкой, использующей модели смеси Стьюдента-T, Toto обеспечивает гибкие, масштабируемые и учитывающие неопределенность прогнозы, подходящие для реальных приложений.Toto — это трансформер только с декодером, созданный для прогнозирования многомерных временных рядов. Он адаптирует инновации из больших языковых моделей — таких как RMSNorm, SwiGLU и ротационные вложения — представляя при этом новый механизм "Пропорционального факторизованного пространственно-временного внимания". Эта конструкция балансирует внимание по времени и пространству для эффективной обработки сложных данных высокой кардинальности. В сочетании с надежной вероятностной прогнозной головкой, использующей модели смеси Стьюдента-T, Toto обеспечивает гибкие, масштабируемые и учитывающие неопределенность прогнозы, подходящие для реальных приложений.

Как Toto переосмысливает мультиголовое внимание для многомерного прогнозирования

2025/10/22 05:08
6м. чтение
Для обратной связи или замечаний по поводу данного контента, свяжитесь с нами по адресу crypto.news@mexc.com
  1. Предыстория
  2. Постановка проблемы
  3. Архитектура модели
  4. Обучающие данные
  5. Результаты
  6. Выводы
  7. Заявление о влиянии
  8. Направления будущего развития
  9. Вклады
  10. Благодарности и ссылки

Приложение

3 Архитектура модели

Toto - это модель прогнозирования, основанная только на декодере. Эта модель использует многие из последних методов из литературы и представляет новый метод адаптации многоголового внимания к многомерным временным рядам (Рис. 1).

\ 3.1 Дизайн трансформера

\ Модели трансформеров для прогнозирования временных рядов использовали различные архитектуры: кодер-декодер [12, 13, 21], только кодер [14, 15, 17] и только декодер [19, 23]. Для Toto мы используем архитектуру, основанную только на декодере. Архитектуры декодеров показали хорошую масштабируемость [25, 26] и позволяют использовать произвольные горизонты прогнозирования. Задача причинного предсказания следующего патча также упрощает процесс предварительного обучения.

\ Мы используем методы из некоторых новейших архитектур больших языковых моделей (LLM), включая пренормализацию [27], RMSNorm [28] и SwiGLU прямонаправленные слои [29].

\ 3.2 Входное встраивание

\ Трансформеры временных рядов в литературе использовали различные подходы для создания входных встраиваний. Мы используем неперекрывающиеся проекции патчей (Рис. 3), впервые представленные для Vision Transformers [30, 31] и популяризированные в контексте временных рядов PatchTST [14]. Toto была обучена с использованием фиксированного размера патча 32.

\

\ 3.3 Механизм внимания

\ Метрики наблюдаемости часто представляют собой многомерные временные ряды высокой кардинальности. Поэтому идеальная модель должна изначально обрабатывать многомерное прогнозирование. Она должна уметь анализировать отношения как во временном измерении (то, что мы называем взаимодействиями "по времени"), так и в канальном измерении (то, что мы называем взаимодействиями "по пространству", следуя соглашению на платформе Datadog об описании различных групп или наборов тегов метрики как "пространственного" измерения).

\ Чтобы моделировать взаимодействия как в пространстве, так и во времени, нам нужно адаптировать традиционную архитектуру многоголового внимания [11] с одного на два измерения. В литературе было предложено несколько подходов для этого, включая:

\ • Предположение о независимости каналов и вычисление внимания только во временном измерении [14]. Это эффективно, но отбрасывает всю информацию о пространственных взаимодействиях.

\ • Вычисление внимания только в пространственном измерении и использование прямонаправленной сети во временном измерении [17, 18].

\ • Конкатенация вариат вдоль временного измерения и вычисление полного перекрестного внимания между каждым пространственно-временным местоположением [15]. Это может охватить все возможные пространственные и временные взаимодействия, но требует больших вычислительных затрат.

\ • Вычисление "факторизованного внимания", где каждый блок трансформера содержит отдельные вычисления внимания для пространства и времени [16, 32, 33]. Это позволяет смешивать как пространство, так и время, и более эффективно, чем полное перекрестное внимание. Однако это удваивает эффективную глубину сети.

\ Чтобы разработать наш механизм внимания, мы следуем интуиции, что для многих временных рядов временные отношения более важны или предсказательны, чем пространственные отношения. В качестве доказательства мы наблюдаем, что даже модели, которые полностью игнорируют пространственные отношения (такие как PatchTST [14] и TimesFM [19]), все равно могут достичь конкурентоспособной производительности на многомерных наборах данных. Однако другие исследования (например, Moirai [15]) показали через абляции, что есть некоторая явная польза от включения пространственных отношений.

\ Поэтому мы предлагаем новый вариант факторизованного внимания, который мы называем "Пропорциональное факторизованное пространственно-временное внимание". Мы используем смесь чередующихся блоков внимания по пространству и по времени. В качестве настраиваемого гиперпараметра мы можем изменять соотношение блоков по времени к блокам по пространству, что позволяет нам выделять больше или меньше вычислительных ресурсов для каждого типа внимания. Для нашей базовой модели мы выбрали конфигурацию с одним блоком внимания по пространству на каждые два блока по времени.

\ В блоках внимания по времени мы используем причинное маскирование и вращательные позиционные встраивания [34] с XPOS [35] для авторегрессивного моделирования зависимых от времени признаков. В блоках по пространству, напротив, мы используем полное двунаправленное внимание для сохранения инвариантности перестановок ковариат, с блочно-диагональной ID-маской, чтобы гарантировать, что только связанные вариаты обращают внимание друг на друга. Это маскирование позволяет нам упаковывать несколько независимых многомерных временных рядов в одну партию, чтобы повысить эффективность обучения и уменьшить количество заполнения.

\ 3.4 Вероятностная голова предсказания

\ Чтобы быть полезной для приложений прогнозирования, модель должна производить вероятностные предсказания. Общая практика в моделях временных рядов - использовать выходной слой, где модель регрессирует параметры вероятностного распределения. Это позволяет вычислять интервалы предсказаний с использованием выборки Монте-Карло [7].

\ Распространенными вариантами для выходного слоя являются Нормальное распределение [7] и Стьюдента-T [23, 36], которые могут повысить устойчивость к выбросам. Moirai [15] позволяет использовать более гибкие остаточные распределения, предлагая новую смешанную модель, включающую взвешенную комбинацию выходов Гауссова, Стьюдента-T, Лог-нормального и отрицательного биномиального распределений.

\ Однако реальные временные ряды часто имеют сложные распределения, которые трудно подогнать, с выбросами, тяжелыми хвостами, экстремальной асимметрией и мультимодальностью. Чтобы учесть эти сценарии, мы вводим еще более гибкую выходную вероятность. Для этого мы используем метод, основанный на моделях смеси Гаусса (GMMs), которые могут аппроксимировать любую функцию плотности ([37]). Чтобы избежать нестабильности обучения при наличии выбросов, мы используем модель смеси Стьюдента-T (SMM), надежное обобщение GMMs [38], которое ранее показало перспективы для моделирования финансовых временных рядов с тяжелыми хвостами [39, 40]. Модель предсказывает k распределений Стьюдента-T (где k - гиперпараметр) для каждого временного шага, а также обученное взвешивание.

\ Рисунок 4. Пример запроса метрики на платформе Datadog. Имя метрики (1) определяет, какая метрика запрашивается. Фильтр (2) ограничивает, какие контексты запрашиваются, в данном случае ограничивая запрос средой prod. Пространственная агрегация (3) указывает, что среднее значение метрики должно возвращаться для каждой уникальной комбинации ключей группировки. Временная агрегация (4) указывает, что значения метрики должны быть агрегированы до среднего для каждого 60-секундного интервала. Результаты запроса будут многомерным временным рядом с шагом в 1 минуту и с отдельными индивидуальными вариатами для каждого уникального кортежа service, datacenter.

\ Когда мы выполняем вывод, мы берем выборки из смешанного распределения в каждый момент времени, затем подаем каждую выборку обратно в декодер для следующего предсказания. Это позволяет нам получать интервалы предсказаний на любом квантиле, ограниченные только количеством выборок; для более точных хвостов мы можем выбрать тратить больше вычислений на выборку (Рис. 2).

\ 3.5 Масштабирование входа/выхода

\ Как и в других моделях временных рядов, мы выполняем нормализацию экземпляров на входных данных перед их прохождением через встраивание патчей, чтобы модель лучше обобщалась на входы разных масштабов [41]. Мы масштабируем входы, чтобы они имели нулевое среднее и единичное стандартное отклонение. Выходные предсказания затем масштабируются обратно к исходным единицам.

\ 3.6 Цель обучения

\ Как модель, основанная только на декодере, Toto предварительно обучается на задаче предсказания следующего патча. Мы минимизируем отрицательное логарифмическое правдоподобие следующего предсказанного патча относительно выходного распределения модели. Мы обучаем модель с использованием оптимизатора AdamW [42].

\ 3.7 Гиперпараметры

\ Гиперпараметры, используемые для Toto, подробно описаны в Таблице A.1, с общим количеством параметров 103 миллиона.

\

:::info Авторы:

(1) Бен Коэн (ben.cohen@datadoghq.com);

(2) Эмаад Хваджа (emaad@datadoghq.com);

(3) Кан Ван (kan.wang@datadoghq.com);

(4) Чарльз Массон (charles.masson@datadoghq.com);

(5) Элиз Раме (elise.rame@datadoghq.com);

(6) Юссеф Дубли (youssef.doubli@datadoghq.com);

(7) Отман Абу-Амаль (othmane@datadoghq.com).

:::


:::info Эта статья доступна на arxiv под лицензией CC BY 4.0.

:::

\

Возможности рынка
Логотип Wink
Wink Курс (LIKE)
$0,001623
$0,001623$0,001623
+1,05%
USD
График цены Wink (LIKE) в реальном времени
Отказ от ответственности: Статьи, размещенные на этом веб-сайте, взяты из общедоступных источников и предоставляются исключительно в информационных целях. Они не обязательно отражают точку зрения MEXC. Все права принадлежат первоисточникам. Если вы считаете, что какой-либо контент нарушает права третьих лиц, пожалуйста, обратитесь по адресу crypto.news@mexc.com для его удаления. MEXC не дает никаких гарантий в отношении точности, полноты или своевременности контента и не несет ответственности за любые действия, предпринятые на основе предоставленной информации. Контент не является финансовой, юридической или иной профессиональной консультацией и не должен рассматриваться как рекомендация или одобрение со стороны MEXC.