Всем привет! Команда Qwen от Alibaba выложила в открытый доступ Qwen3-TTS — нейросетевую модель для синтеза речи с клонированием голоса. Сегодня хочу рассказатьВсем привет! Команда Qwen от Alibaba выложила в открытый доступ Qwen3-TTS — нейросетевую модель для синтеза речи с клонированием голоса. Сегодня хочу рассказать

Клонирование голоса по 3-секундному образцу локально: обзор Qwen3-TTS, примеры на русском и портативная версия

Всем привет! Команда Qwen от Alibaba выложила в открытый доступ Qwen3-TTS — нейросетевую модель для синтеза речи с клонированием голоса. Сегодня хочу рассказать об этой технологии подробнее и поделиться портативной версией.

22cd1bee6ac0238391f42c9c96599fa6.webp

Меня зовут Илья, я основатель сервиса для генерации изображений ArtGeneration.me, блогер и просто фанат нейросетей. А еще я сам собрал портативную версию Qwen3-TTS под win11 и успел её как следует протестировать.

Главная особенность системы в том, что она умеет не только озвучивать текст готовыми голосами, но и клонировать любой голос по короткому образцу, а ещё создавать новые голоса по текстовому описанию.

И всё это с нативной поддержкой русского языка.

Как это работает

e38bc84d0983781fb6f71b16e82f09ba.webp

В основе Qwen3-TTS лежит End-to-End архитектура с дискретным многоканальным токенизатором речи (12.5 Гц, 16 слоёв). В отличие от традиционных систем, которые работают по цепочке "текст → фонемы → звук" и теряют информацию на каждом этапе, здесь всё обрабатывается одним махом.

Такой подход полностью исключает эффект "роботизированности" и каскадные ошибки генерации. Модель сохраняет интонации, эмоции и особенности тембра.

Работает очень быстро даже на старшей модели 1.7B.

Поддерживаемые языки

Qwen3-TTS работает с 10 языками:

  • Китайский (включая пекинский и сычуаньский диалекты)

  • Английский

  • Японский

  • Корейский

  • Немецкий

  • Французский

  • Русский

  • Португальский

  • Испанский

  • Итальянский

Возможности

Синтез с готовыми голосами (CustomVoice)

9 встроенных голосов разных типов — молодые и зрелые, мужские и женские. Можно управлять эмоциями и стилем речи через текстовые инструкции.

Создание голоса по описанию (VoiceDesign)

Описываете словами, какой голос нужен — модель его генерирует. Например: "молодой женский голос, игривый, с высоким тоном". Лучше работает если писать промпты на голос на английском.

Клонирование голоса (Voice Clone)

Загружаете аудио от 3 секунд — получаете синтез этим голосом. По бенчмаркам качество клонирования превосходит ElevenLabs и MiniMax по показателям сходства спикеров. Оно и правда веского качества, уровень VibeVoice, но гораздо легче по ресурсам.

Multi-Speaker режим

Создание диалогов и подкастов с несколькими спикерами одновременно (до 4 голосов).

Можно эмулировать разговор между друзьями, актерами, персонажами из игры, все теперь ограничивается только вашей фантазией.

Кому пригодится

Создателям контента — озвучка роликов, подкастов, стримов.

Разработчикам игр — озвучка персонажей без найма актёров, особенно актуально для инди.

Аудиокнигам — разные голоса для персонажей.

Автоматизации — голосовые уведомления, IVR-системы, ассистенты.

Как попробовать

Онлайн-демо

Тут в демо меньше возможностей и нет локализации, но тоже отлично работает.

Hugging Face Demo — https://huggingface.co/spaces/Qwen/Qwen3-TTS

Официальный GitHub

Можно попробовать установить самостоятельность с гитхаб, но это потребует опыта и навыков.

GitHub: https://github.com/QwenLM/Qwen3-TTS

API

e77bd11df4efa55896c2b58e428eb0ee.webp

Официальное API от Alibaba для production-интеграции.

Ссылка: https://www.alibabacloud.com/help/en/model-studio/qwen-tts-realtime

Портативная версия

Я с каналом Нейро-Софт подготовил улучшенную портативную сборку Qwen3-TTS Portable PRO, видео выше как раз из неё и записаны. А еще там:

  • Русифицированный интерфейс

  • Установка в один клик (install.bat)

  • 50+ готовых голосов в комплекте

  • 700+ дополнительных голосов для скачивания из интерфейса

  • Multi-Speaker режим до 4 спикеров

  • Поддержка NVIDIA GPU и CPU

Скачать: https://github.com/timoncool/Qwen3-TTS_portable_rus

Системные требования

  • NVIDIA GPU с 8+ ГБ видеопамяти (или CPU, но медленнее)

  • Windows 10/11 64-bit

  • 16 ГБ оперативной памяти

  • 20 ГБ свободного места на диске

Текущие ограничения

  • Ударения иногда расставляются неправильно

  • С длинными текстами могут быть проблемы

  • Инструкции для VoiceDesign лучше писать на английском

Распакуйте в корень диска (путь без кириллицы), запустите install.bat. Модели скачаются при первом запуске. А если будут сложности в установкой в посте в канале найдете версию с уже установленным env (окружением).


Я рассказываю больше о нейросетях у себя на YouTube, в Телеграм и на Бусти. Буду рад вашей подписке и поддержке. Ну и на канал Нейро-Софт тоже подпишитесь, чтобы не пропустить полезные репаки. Всех обнял и удачных генераций!

Источник

Отказ от ответственности: Статьи, размещенные на этом веб-сайте, взяты из общедоступных источников и предоставляются исключительно в информационных целях. Они не обязательно отражают точку зрения MEXC. Все права принадлежат первоисточникам. Если вы считаете, что какой-либо контент нарушает права третьих лиц, пожалуйста, обратитесь по адресу service@support.mexc.com для его удаления. MEXC не дает никаких гарантий в отношении точности, полноты или своевременности контента и не несет ответственности за любые действия, предпринятые на основе предоставленной информации. Контент не является финансовой, юридической или иной профессиональной консультацией и не должен рассматриваться как рекомендация или одобрение со стороны MEXC.

Вам также может быть интересно

Что является противоположностью пассивного дохода?

Что является противоположностью пассивного дохода?

Многие люди считают, что ответ очевиден: противоположность пассивному доходу — это активный доход. Но это простое различие скрывает нюансы. Это руководство разбирает заработанный
Поделиться
Coinstats2026/01/26 00:12
Трамп теряет поддержку нескольких консерваторов после последней стрельбы в Миннесоте

Трамп теряет поддержку нескольких консерваторов после последней стрельбы в Миннесоте

После последней стрельбы по протестующему в Миннеаполисе кампания президента Дональда Трампа по депортации иммигрантов быстро теряет поддержку со стороны законодателей-республиканцев
Поделиться
Alternet2026/01/26 00:07
Действующая сеть конфиденциальности ZKP Crypto делает DOGE и Hyperliquid устаревшими! Это лучшая криптовалюта для покупки в этом месяце?

Действующая сеть конфиденциальности ZKP Crypto делает DOGE и Hyperliquid устаревшими! Это лучшая криптовалюта для покупки в этом месяце?

Криптоинвесторы всегда сравнивают то, что шумно, с тем, что выглядит долгосрочным. Прогноз цены Dogecoin доминирует в розничных лентах, движимый настроениями и мемами
Поделиться
Techbullion2026/01/26 00:00