
Российские учёные создали автономную нейросеть для генерации звука
Новосибирский государственный технический университет представил первое в России программное обеспечение для генерации аудиоконтента на основе нейросетевых моделей. Разработка позволяет создавать музыку, вокал и звуковые эффекты прямо на потребительском оборудовании — без облачных сервисов и с поддержкой русскоязычных запросов.
Как это работает?
Процесс генерации включает три этапа:
Языковая модель формирует семантический «каркас» композиции с использованием «цепочки рассуждений».
Диффузионный трансформер выполняет акустический синтез в латентном пространстве.
Модуль экспорта конвертирует результат в форматы WAV, MP3 или FLAC.
Удобный графический интерфейс позволяет управлять проектами, сохранять пресеты параметров, предпрослушивать результаты и экспортировать треки без сторонних редакторов.
Почему это важно?
Ключевое отличие от зарубежных аналогов — полная независимость от облачных платформ и адаптация под русский язык. Для повышения точности генерации разработчики дообучили базовую модель специализированными LoRA‑адаптерами под три типа контента:
инструментальную музыку;
песни с вокалом;
звуковые эффекты.
Качество генерации подтверждено оценкой MOS — 4,1 из 5 баллов, что сопоставимо с ведущими коммерческими платформами.
Перспективы
Команда планирует расширить функционал: добавить поддержку пространственного аудио для VR‑задач, интегрировать MIDI‑контроллеры для живого взаимодействия и адаптировать ПО для промышленного применения — от звуковых ландшафтов в видеоиграх до автоматизированного озвучивания фильмов, трансляций и рекламы.