Alibaba выпустили Qwen3.5-Omni, и это уже не просто «очередная модель», а полноценный мультимодальный хаб. Она понимает текст, изображения, аудио и видео в реальном времени. По сути, это попытка создать ИИ-собеседника, который чувствует контекст так же, как человек.

Главный хайп - Audio-Visual Vibe Coding
Самая сильная фича режим Vibe Coding. Работает это так, ты просто описываешь свою идею голосом прямо в камеру, а Qwen3.5-Omni-Plus мгновенно собирает тебе рабочий веб-сайт или игру. Меньше кодинга руками, больше проектирования через смысл и живое общение.
Что умеет в оффлайне
Разметка видео «под ключ». Модель сама делает скриптовую разметку видео, расставляет таймкоды, делит на сцены и распределяет спикеров. Идеально для тех, кто работает с контентом и не хочет тратить часы на рутину.
Огромная память. Нейронка переваривает до 10 часов аудио или 400 секунд видео в 720p. Её обучили на гигантском массиве данных (100 млн+ часов), так что контекст она держит железно.
Битва с лидерамию В работе с аудио Qwen3.5-Omni уже обходит Gemini-3.1 Pro, а в понимании видео идет с ним наравне. Плюс завезли поддержку 113 языков распознавания речи.
Живое общение в реальном времени
Тут начинается самое интересное. Модель перестает быть «роботом по вызову» и становится нормальным собеседником:
Эмоции и голос. Можно настраивать скорость, громкость и эмоциональный окрас речи прямо в процессе.
Клонирование голоса. Скоро обещают фичу создания клона по очень короткому образцу.
Умный диалог. Она понимает намерения, умеет игнорировать фоновый шум и поддерживает естественный ритм разговора, не перебивая невпопад.
Агентские функции. Внутри уже сидит веб-поиск и возможность вызова сложных функций для решения реальных задач.
Семейство разделили на три части
Plus - максимальный интеллект для сложных проектов.
Flash - для тех, кому важна скорость.
Light - облегченная версия для простых задач.
Пощупать демки и почитать детали можно тут