Character.ai представляет эффективные методы крупномасштабного предобучения

Tony Kim
21:56, 23 декабря 2025

Character.ai раскрывает инновационные методы оптимизации крупномасштабного предобучения, сосредоточившись на таких техниках, как Squinch, динамическое ограничение и Gumbel Softmax, для повышения эффективности обучения моделей ИИ.

Character.ai, заметный игрок в сфере ИИ, недавно поделился информацией о своих ранних усилиях по оптимизации крупномасштабного обучения трансформеров. Компания, которая с тех пор переключила свое внимание на основы моделей с открытым исходным кодом, изначально изучала различные техники для повышения эффективности и скорости обучения, согласно блогу Character.AI.

Сжатие градиентов: Squinch

Одной из ключевых инноваций, выделенных в усилиях Character.ai, является алгоритм сжатия градиентов, известный как Squinch. Разработанная соучредителем Ноамом Шазиром, эта техника 6-битного сжатия была создана для значительного сокращения пропускной способности связи во время распределенного обучения при сохранении точности модели. Алгоритм эффективно сжимает градиенты до 6 бит на элемент, оптимизируя использование пропускной способности обучающих кластеров.

Регуляризация точности: Attention Z-Reg

Character.ai также разработал Attention Z-Reg, метод регуляризации, применяемый к логитам внимания для обеспечения численной стабильности. Эта техника помогает поддерживать точность представлений bfloat16, что критически важно для оптимизации обучения больших моделей.

Стабильность квантования: динамическое ограничение

Динамическое ограничение - это еще одна техника, используемая для повышения стабильности квантования. Она предотвращает схлопывание малых значений активации к нулю путем динамического вычисления диапазона ограничения на основе среднеквадратичного значения входных весов. Этот метод улучшает стабильность обучения за счет снижения ошибок квантования.

Эффективный API внимания: Visibility Mask

Внедрение Visibility Mask, инструмента для представления межтокенных отношений во время обучения и вывода, улучшило эффективность обучающих систем. Этот API помогает управлять диапазонами внимания в пакетах, поддерживая древовидные структуры документов и двунаправленное внимание.

Оптимизация дистилляции: Gumbel Softmax

В области дистилляции моделей Character.ai использовал технику Gumbel Softmax для снижения затрат на хранение и пропускную способность при сохранении точности моделей-учителей. Этот подход включает в себя выборку подмножеств выходных данных модели-учителя, сохраняя мягкие целевые значения для более эффективного обучения модели-ученика.

Усилия Character.ai по оптимизации предобучения проложили путь для более эффективного обучения моделей ИИ, даже когда компания переходит к обучению с подкреплением после обучения для моделей с открытым исходным кодом. Эти техники, включая Squinch и Gumbel Softmax, подчеркивают приверженность компании повышению эффективности и масштабируемости ИИ.

Источник изображения: Shutterstock

Источник: https://blockchain.news/news/character-ai-unveils-efficient-techniques-for-large-scale-pretraining

Character.ai представляет эффективные методы крупномасштабного предобучения

Сжатие градиентов: Squinch

Регуляризация точности: Attention Z-Reg

Стабильность квантования: динамическое ограничение

Эффективный API внимания: Visibility Mask

Оптимизация дистилляции: Gumbel Softmax

Вам также может быть интересно

Korea Investment и OKX ведут переговоры о приобретении долей в южнокорейской бирже Coinone

Trazo создал бизнес по доставке еды в небольших городах. Теперь он хочет выйти на рынок Лагоса.

Ripple CEO — инвесторам XRP: финишная прямая уже здесь. Последние новости

Популярные новости

CLARITY Act одобрили: частичный компромисс и что нужно для запуска

Найджел Фараж оказался под следствием из-за недвижимости стоимостью £1,4 млн, связанной с донором из мира криптовалют

Генеральный директор NVIDIA привлёк внимание в пекинском заведении с лапшой

Как рынки отреагируют на истечение опционов на Bitcoin стоимостью 2 млрд $ сегодня?

Американцы должны называть правительство Трампа своим истинным именем

Новости 24/7 в прямом эфире

Быстрое чтение

Что нового в BEEG в 2026 году?

Что такое BEEG? Вирусная монета Sui Meme, которую ищут все

Прежде чем открыть эту сделку: полное руководство по фьючерсному калькулятору MEXC

Сколько BEEG вы должны держать в 2026 году? Полное руководство по размеру позиции

Новости были хорошими. Цена не была. Момент "продать новости" Биткойна и Эфириума

Цены на криптовалюту