
Коллеги! Пару минут вашего внимания ⚔️ для автоматической озвучки автоматического монтажа - нужно подобрать подходящую TTS-модель для синтеза речи. Конечно по классике это должна быть локальная модель! 📱 Чтобы бомбить бесплатно и без ограничений (жертвуя качеством и мощностями сервера) на выбор три кандидата : 1) Silero-TTS (русс разработчики, очень легкая и простая. Обучалась на подкастах и аудиокнигах. Работает только с SSML и не понимает простой текст) 2) ebany-speach (конечно тоже русс разрабы =). Уже тяжелей и понимает орфографию без специальной разметки. Но основана на древней архитектуре Piper, что конечно в 2026 сильно заметно) 3) qwen3-tts (SOTA для китайского семейства 2и моделей. Куча голосов и можно включать эмоции. Достаточно тяжелая, но 1.7b можно запустить на CPU (без видеокарты). А так же много иных настроек) Попробуем организовать интерактив.🎧 Прошу прослушать и отписаться по выбору. Хотя конечно пример не слишком репрезентативен, но помните! что в современных reels ценятся первые пару секунд впечатлений❤️
Послушать и проголосовать прошу тут:
Так как не удается загрузить на Базар :(