Статья Character.ai представляет эффективные методы крупномасштабного предобучения опубликована на BitcoinEthereumNews.com. Тони Ким 23 декабря 2025 21:56 Character.aiСтатья Character.ai представляет эффективные методы крупномасштабного предобучения опубликована на BitcoinEthereumNews.com. Тони Ким 23 декабря 2025 21:56 Character.ai

Character.ai представляет эффективные методы крупномасштабного предобучения

2025/12/24 14:41
2м. чтение
Для обратной связи или замечаний по поводу данного контента, свяжитесь с нами по адресу crypto.news@mexc.com


Tony Kim
21:56, 23 декабря 2025

Character.ai раскрывает инновационные методы оптимизации крупномасштабного предобучения, сосредоточившись на таких техниках, как Squinch, динамическое ограничение и Gumbel Softmax, для повышения эффективности обучения моделей ИИ.

Character.ai, заметный игрок в сфере ИИ, недавно поделился информацией о своих ранних усилиях по оптимизации крупномасштабного обучения трансформеров. Компания, которая с тех пор переключила свое внимание на основы моделей с открытым исходным кодом, изначально изучала различные техники для повышения эффективности и скорости обучения, согласно блогу Character.AI.

Сжатие градиентов: Squinch

Одной из ключевых инноваций, выделенных в усилиях Character.ai, является алгоритм сжатия градиентов, известный как Squinch. Разработанная соучредителем Ноамом Шазиром, эта техника 6-битного сжатия была создана для значительного сокращения пропускной способности связи во время распределенного обучения при сохранении точности модели. Алгоритм эффективно сжимает градиенты до 6 бит на элемент, оптимизируя использование пропускной способности обучающих кластеров.

Регуляризация точности: Attention Z-Reg

Character.ai также разработал Attention Z-Reg, метод регуляризации, применяемый к логитам внимания для обеспечения численной стабильности. Эта техника помогает поддерживать точность представлений bfloat16, что критически важно для оптимизации обучения больших моделей.

Стабильность квантования: динамическое ограничение

Динамическое ограничение - это еще одна техника, используемая для повышения стабильности квантования. Она предотвращает схлопывание малых значений активации к нулю путем динамического вычисления диапазона ограничения на основе среднеквадратичного значения входных весов. Этот метод улучшает стабильность обучения за счет снижения ошибок квантования.

Эффективный API внимания: Visibility Mask

Внедрение Visibility Mask, инструмента для представления межтокенных отношений во время обучения и вывода, улучшило эффективность обучающих систем. Этот API помогает управлять диапазонами внимания в пакетах, поддерживая древовидные структуры документов и двунаправленное внимание.

Оптимизация дистилляции: Gumbel Softmax

В области дистилляции моделей Character.ai использовал технику Gumbel Softmax для снижения затрат на хранение и пропускную способность при сохранении точности моделей-учителей. Этот подход включает в себя выборку подмножеств выходных данных модели-учителя, сохраняя мягкие целевые значения для более эффективного обучения модели-ученика.

Усилия Character.ai по оптимизации предобучения проложили путь для более эффективного обучения моделей ИИ, даже когда компания переходит к обучению с подкреплением после обучения для моделей с открытым исходным кодом. Эти техники, включая Squinch и Gumbel Softmax, подчеркивают приверженность компании повышению эффективности и масштабируемости ИИ.

Источник изображения: Shutterstock

Источник: https://blockchain.news/news/character-ai-unveils-efficient-techniques-for-large-scale-pretraining

Возможности рынка
Логотип null
null Курс (null)
--
----
USD
График цены null (null) в реальном времени
Отказ от ответственности: Статьи, размещенные на этом веб-сайте, взяты из общедоступных источников и предоставляются исключительно в информационных целях. Они не обязательно отражают точку зрения MEXC. Все права принадлежат первоисточникам. Если вы считаете, что какой-либо контент нарушает права третьих лиц, пожалуйста, обратитесь по адресу crypto.news@mexc.com для его удаления. MEXC не дает никаких гарантий в отношении точности, полноты или своевременности контента и не несет ответственности за любые действия, предпринятые на основе предоставленной информации. Контент не является финансовой, юридической или иной профессиональной консультацией и не должен рассматриваться как рекомендация или одобрение со стороны MEXC.

Вам также может быть интересно

Аналитик утверждает, что план BlackRock для XRP может выйти за рамки ETF. Вот почему

Аналитик утверждает, что план BlackRock для XRP может выйти за рамки ETF. Вот почему

Криптовалютная индустрия вступила в новую фазу, в которой институциональные стратегии все больше выходят за рамки простого владения цифровыми активами. В то время как биржи
Поделиться
Timestabloid2026/03/07 21:05
ETF на биткоин потеряли $348,8 млн в пятницу, завершив неделю с чистым притоком $568,4 млн

ETF на биткоин потеряли $348,8 млн в пятницу, завершив неделю с чистым притоком $568,4 млн

Ключевые данные: Американские спотовые биржевые фонды (ETF) на Bitcoin зафиксировали чистый отток средств в размере $348,83 млн в пятницу. Отток в четверг составил $227,83 млн. Несмотря на
Поделиться
Themarketperiodical2026/03/07 21:37
Нам не подошла ни одна среда для MARL в непрерывном пространстве — поэтому мы сделали CAMAR

Нам не подошла ни одна среда для MARL в непрерывном пространстве — поэтому мы сделали CAMAR

Представьте задачу: есть куча роботов, и им всем надо куда‑то добраться, не столкнувшись с собратьями, а мы должны придумать для этого алгоритм. Это, если упрощ
Поделиться
ProBlockChain2026/03/07 17:16