Wan

Эта статья входит в число готовых статей
Эта статья прошла проверку экспертом
Wan
Тип Text-to-Video
Разработчик Alibaba Cloud
Языки интерфейса китайский и английский
Первый выпуск 2025
Последняя версия 2.1 ()

Wan — открытая модель искусственного интеллекта для генерации и редактирования видео, разработанная Alibaba Cloud. Является частью семейства моделей Wan, включающего облегчённую версию T2V-1.3B. Основной функционал включает создание видеороликов по текстовым описаниям, анимацию статичных изображений, манипуляцию существующими видеозаписями, добавление текстовых элементов и генерацию синхронизированного аудио. Модель доступна для академического и коммерческого использования на платформах ModelScope, HuggingFace и GitHub. Модель сочетает высокую производительность с доступностью, требуя всего 8 ГБ видеопамяти для работы, что делает её совместимой даже с бюджетным оборудованием[1][2].

Архитектура и варианты модели

Wan 2.1 выпускается в четырёх модификациях, каждая из которых оптимизирована под конкретные задачи[2]:

  • Wan 2.1-T2V-14B – модель «текст-видео» (Text-to-Video) с 14 миллиардами параметров. Предназначена для высококачественной генерации видео из текстовых описаний; поддерживает разрешение до 720p. Обеспечивает наилучшее качество среди версий, генерируя сложные сцены и динамику по заданному сценарию[2].
  • Wan 2.1-I2V-14B-720P и Wan 2.1-I2V-14B-480P – два варианта модели «изображение-видео» (Image-to-Video) на 14 миллиардов параметров, генерирующие видео на основе одного входного изображения (с текстовым описанием опционально). Первый вариант выдаёт видео в разрешении 720p, второй – в 480p. Оба могут анимировать статичные изображения, «оживляя» сцену и добавляя движение; по данным Alibaba, эти I2V-модели по качеству превосходят все существовавшие на данный момент открытые аналоги и даже опережают закрытые коммерческие модели[2][3].
  • Wan 2.1-T2V-1.3B – облегчённая модель «текст-видео» на 1,3 миллиардов параметров. Разработана для работы на бытовых GPU с ограниченной памятью: требует всего 8,2 ГБ видеопамяти и способна генерировать 5-секундный видеоролик 480p примерно за 4 минуты на видеокарте уровня NVIDIA RTX 4090. Благодаря техникам предобучения и дистилляции этот компактный вариант превосходит по качеству некоторые более крупные открытые модели и приближается к уровню закрытых моделей. Он ориентирован главным образом на исследования и разработку (fine-tuning, создание производных моделей), предоставляя независимым разработчикам и учёным доступный инструмент для экспериментов[2][3].

В основе архитектуры лежит гибридный подход, сочетающий трансформеры для анализа текстовых входов и свёрточные сети для обработки визуальных данных. Это позволяет модели синтезировать динамические сцены с учётом контекста и пространственных отношений объектов[2][4].

Технические особенности

Wan 2.1 использует уникальный пространственно-временной механизм внимания, который синхронизирует динамику движения и пространственные взаимодействия объектов. Это позволяет модели генерировать сложные сцены — например, фигурное катание или автогонки — с минимальными артефактами и высокой детализацией[5].

Модель достигает рекордной оценки VBench 84,7 %, опережая ближайших конкурентов. Она поддерживает текстовые запросы на китайском и английском, что расширяет её аудиторию, а разрешение 1080p при 30 кадрах в секунду соответствует профессиональным стандартам[6].

Значение для отрасли

Внедрение Wan 2.1 имеет стратегическое значение для медиаиндустрии, образования и маркетинга:

  • Снижение затрат: Автоматизация производства видео уменьшает потребность в ручном труде, что особенно актуально для малого бизнеса
  • Доступ: Open-source-модель и интеграция с Alibaba Cloud делают технологии доступными для разработчиков и стартапов
  • Новые сценарии использования: Возможности генерации контента для образовательных платформ, рекламных роликов, видеоигр и виртуальной реальности
  • Эволюция стандартов: Технология задаёт новые бенчмарки в оценке качества синтетического видео, стимулируя конкуренцию среди разработчиков[6][5].

Влияние на индустрию генерации видео

Открытый исходный код Wan 2.1 может кардинально изменить индустрию ИИ-генерации видео. Благодаря рекордной оценке VBench (84,7 %), модели удалось превзойти таких гигантов, как Sora (82 %) и Veo 2 (83 %) в качестве рендеринга динамических сцен (например, сложные движения или взаимодействие объектов). Поддержка китайского и английского языков, а также разрешение 1080p при 30 FPS делают её универсальным инструментом для глобальной аудитории — от независимых креаторов до корпораций. Открытость архитектуры снижает барьеры для стартапов и исследователей, однако ставит новые вызовы: рост рисков, связанных с дипфейками, и необходимость контроля качества модификаций. В то время как проприетарные решения вроде Kling (Kuaishou) остаются в нишах короткого контента, Wan 2.1, сочетающая профессиональное качество с гибкостью, угрожает монополии закрытых платформ, предлагая бесплатный базовый доступ за умеренную плату[5].

Примечания

  1. Карпова, Ася. Alibaba выпустила модель для генерации видео Wan 2.1 с открытым исходным кодом. Vc.ru (26 февраля 2025). Дата обращения: 28 февраля 2025.
  2. 2,0 2,1 2,2 2,3 2,4 2,5 Wan: Open and Advanced Large-Scale Video Generative Models (англ.). Hugging Face (25 февраля 2025). Дата обращения: 28 февраля 2025.
  3. 3,0 3,1 Alibaba unveils Wan 2.1 AI video generation models, claming to outperform OpenAI's Sora (англ.). Business Today. 2025-02-28. Дата обращения: 28 февраля 2025.
  4. Котов, Павел. Alibaba снова ударила по OpenAI — вышел бесплатный ИИ-генератор реалистичных видео Wan 2.1. 3d news (26 февраля 2025). Дата обращения: 28 февраля 2025.
  5. 5,0 5,1 5,2 Milon Amdadul Haque. Wan 2.1 Open Source: Alibaba’s Game-Changing AI Video Model Takes on Sora, Minimax, Kling, and Google Veo 2 (англ.). Medium. Дата обращения: 28 февраля 2025.
  6. 6,0 6,1 Alibaba Cloud Unveiled Wanx 2.1: Redefining AI-Driven Video Generation. Alibaba Cloud (13 января 2025). Дата обращения: 28 февраля 2025.