Wan

Wan
Wan
Тип	Text-to-Video
Разработчик	Alibaba Cloud
Языки интерфейса	китайский и английский
Первый выпуск	2025
Последняя версия	2.1 ()

Wan — открытая модель искусственного интеллекта для генерации и редактирования видео, разработанная Alibaba Cloud. Является частью семейства моделей Wan, включающего облегчённую версию T2V-1.3B. Основной функционал включает создание видеороликов по текстовым описаниям, анимацию статичных изображений, манипуляцию существующими видеозаписями, добавление текстовых элементов и генерацию синхронизированного аудио. Модель доступна для академического и коммерческого использования на платформах ModelScope, HuggingFace и GitHub. Модель сочетает высокую производительность с доступностью, требуя всего 8 ГБ видеопамяти для работы, что делает её совместимой даже с бюджетным оборудованием^[1]^[2].

Архитектура и варианты модели

Wan 2.1 выпускается в четырёх модификациях, каждая из которых оптимизирована под конкретные задачи^[2]:

Wan 2.1-T2V-14B – модель «текст-видео» (Text-to-Video) с 14 миллиардами параметров. Предназначена для высококачественной генерации видео из текстовых описаний; поддерживает разрешение до 720p. Обеспечивает наилучшее качество среди версий, генерируя сложные сцены и динамику по заданному сценарию^[2].
Wan 2.1-I2V-14B-720P и Wan 2.1-I2V-14B-480P – два варианта модели «изображение-видео» (Image-to-Video) на 14 миллиардов параметров, генерирующие видео на основе одного входного изображения (с текстовым описанием опционально). Первый вариант выдаёт видео в разрешении 720p, второй – в 480p. Оба могут анимировать статичные изображения, «оживляя» сцену и добавляя движение; по данным Alibaba, эти I2V-модели по качеству превосходят все существовавшие на данный момент открытые аналоги и даже опережают закрытые коммерческие модели^[2]^[3].
Wan 2.1-T2V-1.3B – облегчённая модель «текст-видео» на 1,3 миллиардов параметров. Разработана для работы на бытовых GPU с ограниченной памятью: требует всего 8,2 ГБ видеопамяти и способна генерировать 5-секундный видеоролик 480p примерно за 4 минуты на видеокарте уровня NVIDIA RTX 4090. Благодаря техникам предобучения и дистилляции этот компактный вариант превосходит по качеству некоторые более крупные открытые модели и приближается к уровню закрытых моделей. Он ориентирован главным образом на исследования и разработку (fine-tuning, создание производных моделей), предоставляя независимым разработчикам и учёным доступный инструмент для экспериментов^[2]^[3].

В основе архитектуры лежит гибридный подход, сочетающий трансформеры для анализа текстовых входов и свёрточные сети для обработки визуальных данных. Это позволяет модели синтезировать динамические сцены с учётом контекста и пространственных отношений объектов^[2]^[4].

Технические особенности

Wan 2.1 использует уникальный пространственно-временной механизм внимания, который синхронизирует динамику движения и пространственные взаимодействия объектов. Это позволяет модели генерировать сложные сцены — например, фигурное катание или автогонки — с минимальными артефактами и высокой детализацией^[5].

Модель достигает рекордной оценки VBench 84,7 %, опережая ближайших конкурентов. Она поддерживает текстовые запросы на китайском и английском, что расширяет её аудиторию, а разрешение 1080p при 30 кадрах в секунду соответствует профессиональным стандартам^[6].

Значение для отрасли

Внедрение Wan 2.1 имеет стратегическое значение для медиаиндустрии, образования и маркетинга:

Снижение затрат: Автоматизация производства видео уменьшает потребность в ручном труде, что особенно актуально для малого бизнеса
Доступ: Open-source-модель и интеграция с Alibaba Cloud делают технологии доступными для разработчиков и стартапов
Новые сценарии использования: Возможности генерации контента для образовательных платформ, рекламных роликов, видеоигр и виртуальной реальности
Эволюция стандартов: Технология задаёт новые бенчмарки в оценке качества синтетического видео, стимулируя конкуренцию среди разработчиков^[6]^[5].

Влияние на индустрию генерации видео

Открытый исходный код Wan 2.1 может кардинально изменить индустрию ИИ-генерации видео. Благодаря рекордной оценке VBench (84,7 %), модели удалось превзойти таких гигантов, как Sora (82 %) и Veo 2 (83 %) в качестве рендеринга динамических сцен (например, сложные движения или взаимодействие объектов). Поддержка китайского и английского языков, а также разрешение 1080p при 30 FPS делают её универсальным инструментом для глобальной аудитории — от независимых креаторов до корпораций. Открытость архитектуры снижает барьеры для стартапов и исследователей, однако ставит новые вызовы: рост рисков, связанных с дипфейками, и необходимость контроля качества модификаций. В то время как проприетарные решения вроде Kling (Kuaishou) остаются в нишах короткого контента, Wan 2.1, сочетающая профессиональное качество с гибкостью, угрожает монополии закрытых платформ, предлагая бесплатный базовый доступ за умеренную плату^[5].

Примечания

↑ Карпова, Ася. Alibaba выпустила модель для генерации видео Wan 2.1 с открытым исходным кодом (неопр.). Vc.ru (26 февраля 2025). Дата обращения: 28 февраля 2025.
↑ ^2,0 ^2,1 ^2,2 ^2,3 ^2,4 ^2,5 Wan: Open and Advanced Large-Scale Video Generative Models (англ.). Hugging Face (25 февраля 2025). Дата обращения: 28 февраля 2025.
↑ ^3,0 ^3,1 Alibaba unveils Wan 2.1 AI video generation models, claming to outperform OpenAI's Sora (англ.). Business Today. 2025-02-28. Дата обращения: 28 февраля 2025.
↑ Котов, Павел. Alibaba снова ударила по OpenAI — вышел бесплатный ИИ-генератор реалистичных видео Wan 2.1 (неопр.). 3d news (26 февраля 2025). Дата обращения: 28 февраля 2025.
↑ ^5,0 ^5,1 ^5,2 Milon Amdadul Haque. Wan 2.1 Open Source: Alibaba’s Game-Changing AI Video Model Takes on Sora, Minimax, Kling, and Google Veo 2 (англ.). Medium. Дата обращения: 28 февраля 2025.
↑ ^6,0 ^6,1 Alibaba Cloud Unveiled Wanx 2.1: Redefining AI-Driven Video Generation (неопр.). Alibaba Cloud (13 января 2025). Дата обращения: 28 февраля 2025.

[1] Карпова, Ася. Alibaba выпустила модель для генерации видео Wan 2.1 с открытым исходным кодом (неопр.). Vc.ru (26 февраля 2025). Дата обращения: 28 февраля 2025.

[:0-2] 2,0 ^2,1 ^2,2 ^2,3 ^2,4 ^2,5 Wan: Open and Advanced Large-Scale Video Generative Models (англ.). Hugging Face (25 февраля 2025). Дата обращения: 28 февраля 2025.

[:2-3] 3,0 ^3,1 Alibaba unveils Wan 2.1 AI video generation models, claming to outperform OpenAI's Sora (англ.). Business Today. 2025-02-28. Дата обращения: 28 февраля 2025.

[4] Котов, Павел. Alibaba снова ударила по OpenAI — вышел бесплатный ИИ-генератор реалистичных видео Wan 2.1 (неопр.). 3d news (26 февраля 2025). Дата обращения: 28 февраля 2025.

[:1-5] 5,0 ^5,1 ^5,2 Milon Amdadul Haque. Wan 2.1 Open Source: Alibaba’s Game-Changing AI Video Model Takes on Sora, Minimax, Kling, and Google Veo 2 (англ.). Medium. Дата обращения: 28 февраля 2025.

[:3-6] 6,0 ^6,1 Alibaba Cloud Unveiled Wanx 2.1: Redefining AI-Driven Video Generation (неопр.). Alibaba Cloud (13 января 2025). Дата обращения: 28 февраля 2025.

[1]

[2]

[3]

[4]

[5]

[6]

Искусственный интеллект
История	История искусственного интеллекта Зима искусственного интеллекта Дартмутский семинар Регламент ЕС об искусственном интеллекте	Шаблон:РисПортала
Философия	Тест Тьюринга Китайская комната Сильный и слабый искусственные интеллекты Дружественный искусственный интеллект Этика искусственного интеллекта Проблема контроля
Направления	Агентный подход Адаптивное управление Инженерия знаний Модель жизнеспособной системы Машинное обучение Нейронная сеть Нечёткая логика Обработка естественного языка Персональный искусственный интеллект Распознавание образов Роевой интеллект Символический ИИ Эволюционные алгоритмы Экспертная система
Применение	Голосовое управление Задача классификации Классификация документов Кластеризация документов Кластерный анализ Локальный поиск Машинный перевод Оптическое распознавание символов Распознавание речи Распознавание рукописного ввода Игровой ИИ
Исследователи	Чарлз Бэббидж Владимир Вапник Джозеф Вейценбаум Норберт Винер Виктор Глушков Владимир Городецкий Ян Лекун Алексей Ляпунов Джон Маккарти Марвин Мински Аллен Ньюэлл Сеймур Пейперт Джуда Перл Гермоген Поспелов Дмитрий Поспелов Фрэнк Розенблатт Герберт Александер Саймон Алан Тьюринг Патрик Уинстон Виктор Финн Сергей Фомин Демис Хассабис Джеффри Хинтон Ноам Хомский Клод Шеннон Эндрю Ын Элиезер Юдковский