Резюме и 1. Введение
Фон
Метод
Эксперименты
4.1 Производительность многоэтапного рассуждения
4.2 Рассуждение с отвлекающими факторами
4.3 Обобщение на знания реального мира
4.4 Анализ времени выполнения
4.5 Запоминание знаний
Связанные работы
Заключение, благодарности и ссылки
\ A. Набор данных
B. Контекстное рассуждение с отвлекающими факторами
C. Детали реализации
D. Адаптивная скорость обучения
E. Эксперименты с большими языковыми моделями
Предыдущие работы [3, 4] показывают, что фиксированная скорость обучения, общая для всех шагов и параметров, не улучшает производительность обобщения системы. Вместо этого [3] рекомендует изучать скорость обучения для
\ 
\ 
\ каждого слоя сети и каждого шага адаптации во внутреннем цикле. Параметры слоя могут научиться динамически регулировать скорость обучения на каждом шаге. Чтобы адаптивно контролировать скорость обучения α во внутреннем цикле, мы определяем α как набор регулируемых переменных: α = {α0, α1, …αL}, где L - количество слоев, и для каждого l = 0, …, L, αl является вектором с N элементами при заданном предопределенном количестве шагов внутреннего цикла N. Уравнение обновления внутреннего цикла тогда становится
\ 
\ 
\ Необходимы ли динамические скорости обучения для производительности RECKONING? Следуя предыдущим работам по мета-обучению [3, 4], мы динамически изучаем набор скоростей обучения для каждого шага и слоя для RECKONING. В этом исследовании мы анализируем, эффективно ли динамические скорости обучения для внутреннего цикла улучшают производительность рассуждений внешнего цикла. Аналогично, мы фиксируем другие экспериментальные настройки и устанавливаем количество шагов внутреннего цикла равным 4. Как показано на рисунке 8, при использовании статической скорости обучения (т.е. все слои и шаги внутреннего цикла используют постоянную скорость обучения), производительность значительно снижается (среднее снижение на 34,2%). Падение производительности становится более значительным для вопросов, требующих большего количества шагов рассуждения (снижение на 45,5% для 4-этапных и 39,5% для 6-этапных), что демонстрирует важность использования динамической скорости обучения во внутреннем цикле нашей структуры.
\ 
\
:::info Авторы:
(1) Zeming Chen, EPFL (zeming.chen@epfl.ch);
(2) Gail Weiss, EPFL (antoine.bosselut@epfl.ch);
(3) Eric Mitchell, Stanford University (eric.mitchell@cs.stanford.edu)';
(4) Asli Celikyilmaz, Meta AI Research (aslic@meta.com);
(5) Antoine Bosselut, EPFL (antoine.bosselut@epfl.ch).
:::
:::info Эта статья доступна на arxiv по лицензии CC BY 4.0 DEED.
:::
\


