В России появилось первое ИИ‑ПО для генерации музыки.

Российские учёные создали автономную нейросеть для генерации звука

Новосибирский государственный технический университет представил первое в России программное обеспечение для генерации аудиоконтента на основе нейросетевых моделей. Разработка позволяет создавать музыку, вокал и звуковые эффекты прямо на потребительском оборудовании — без облачных сервисов и с поддержкой русскоязычных запросов.

Как это работает?

Процесс генерации включает три этапа:

Языковая модель формирует семантический «каркас» композиции с использованием «цепочки рассуждений».

Диффузионный трансформер выполняет акустический синтез в латентном пространстве.

Модуль экспорта конвертирует результат в форматы WAV, MP3 или FLAC.

Удобный графический интерфейс позволяет управлять проектами, сохранять пресеты параметров, предпрослушивать результаты и экспортировать треки без сторонних редакторов.

Почему это важно?

Ключевое отличие от зарубежных аналогов — полная независимость от облачных платформ и адаптация под русский язык. Для повышения точности генерации разработчики дообучили базовую модель специализированными LoRA‑адаптерами под три типа контента:

инструментальную музыку;

песни с вокалом;

звуковые эффекты.

Качество генерации подтверждено оценкой MOS — 4,1 из 5 баллов, что сопоставимо с ведущими коммерческими платформами.

Перспективы

Команда планирует расширить функционал: добавить поддержку пространственного аудио для VR‑задач, интегрировать MIDI‑контроллеры для живого взаимодействия и адаптировать ПО для промышленного применения — от звуковых ландшафтов в видеоиграх до автоматизированного озвучивания фильмов, трансляций и рекламы.

0 / 2000

Ваш комментарий