Китайцы сделали нейронку, которая видит, слышит и кодит на лету

Alibaba выпустили Qwen3.5-Omni, и это уже не просто «очередная модель», а полноценный мультимодальный хаб. Она понимает текст, изображения, аудио и видео в реальном времени. По сути, это попытка создать ИИ-собеседника, который чувствует контекст так же, как человек.

Alibaba выпустили Qwen3.5-Omni, и это уже не просто «очередная модель», а полноценный мультимодальный хаб. Она - изображение

Главный хайп - Audio-Visual Vibe Coding

Самая сильная фича режим Vibe Coding. Работает это так, ты просто описываешь свою идею голосом прямо в камеру, а Qwen3.5-Omni-Plus мгновенно собирает тебе рабочий веб-сайт или игру. Меньше кодинга руками, больше проектирования через смысл и живое общение.

Что умеет в оффлайне

Разметка видео «под ключ». Модель сама делает скриптовую разметку видео, расставляет таймкоды, делит на сцены и распределяет спикеров. Идеально для тех, кто работает с контентом и не хочет тратить часы на рутину.

Огромная память. Нейронка переваривает до 10 часов аудио или 400 секунд видео в 720p. Её обучили на гигантском массиве данных (100 млн+ часов), так что контекст она держит железно.

Битва с лидерамию В работе с аудио Qwen3.5-Omni уже обходит Gemini-3.1 Pro, а в понимании видео идет с ним наравне. Плюс завезли поддержку 113 языков распознавания речи.

Живое общение в реальном времени

Тут начинается самое интересное. Модель перестает быть «роботом по вызову» и становится нормальным собеседником:

Эмоции и голос. Можно настраивать скорость, громкость и эмоциональный окрас речи прямо в процессе.

Клонирование голоса. Скоро обещают фичу создания клона по очень короткому образцу.

Умный диалог. Она понимает намерения, умеет игнорировать фоновый шум и поддерживает естественный ритм разговора, не перебивая невпопад.

Агентские функции. Внутри уже сидит веб-поиск и возможность вызова сложных функций для решения реальных задач.

Семейство разделили на три части

Plus - максимальный интеллект для сложных проектов.

Flash - для тех, кому важна скорость.

Light - облегченная версия для простых задач.

Пощупать демки и почитать детали можно тут

Блог Qwen

Чат

0 / 2000

Ваш комментарий