「Wan2.1」ローカル環境の使い方! ComfyUIで動画生成に挑戦!

「Wan2.1」ローカル環境の使い方! ComfyUIで動画生成に挑戦!

Wan2.1は、アリババが2025年3月に公開したオープンソースの動画生成AIです。

Wan2.1を使えば、テキストプロンプトや画像を入力するだけで、高品質な動画を簡単に作成できます。

この記事では、初心者にも分かりやすく、Wan2.1の概要とComfyUIを活用したローカル環境での導入・使い方を解説します。

リリース記念、2,000Ptプレゼント!

目次

Wan2.1とは?

(出典:github.com)

Wan2.1は、アリババが開発した最先端の動画生成AIです。テキストや画像を入力するだけで、高品質な動画を簡単に生成できます。

Wan2.1の強みは、水の跳ね返りや空間関係、物理法則を忠実に再現できる点にあります。

Wan2.1の主な特徴は下記の3つです。

Wan2.1の特徴
  • テキストや画像、動画から動画生成ができるマルチモーダル対応
  • 低スペックPCでも、高品質な動画を高速生成
  • オープンソースモデルで、無料で利用可能

テキストや画像、動画から動画生成ができるマルチモーダル対応

(出典:github.com)

データキュレーションでは、基本的な項目、視覚的品質、動きの品質に焦点を当てた4段階のデータクリーニングプロセスを設計しています。

膨大な画像・動画データから構成される候補データセットを精査し、重複を排除しています。

この堅牢なデータ処理パイプラインにより、高品質かつ多様で大規模な画像および動画のトレーニングデータセットを容易に得られるようになりました。

低スペックPCでも、品質が高い動画が高速で作れる

(出典:github.com)

Wan2.1は、他の動画生成AIモデルと比較しても高い性能を誇ります。

テストでは、人間の好みを反映した基準値を用いた総合スコアで他サービスを大きく上回る評価を獲得しました。

また、一般向けのゲーミングGPUでも動作可能で、例えばRTX 4090では480pの5秒動画を約4分で生成できます。

オープンソースモデルで、無料で利用することができる

Wan2.1は、Apache 2.0ライセンスのもとで公開されており、無料で利用可能です。

Wan2.1はローカル環境、クラウド環境、ComfyUIで動作可能で、多様な利用シナリオに対応していて、カスタマイズや独自用途への適用が容易です。

オープンソース化により、学術研究者や企業が初期費用を抑えつつ、高品質な動画生成技術をプロジェクトに統合できます。

Stable Diffusionの使い方は、機能別に下記の記事にまとめているのでぜひご覧ください

Wan2.1 ComfyUIでの始め方・使い方

見出し画像

ここでは、「ComfyUI」を使ったローカル環境での「Wan2.1」の始め方から使い方まで紹介します。

STEP
Wan2.1のプロジェクトをインストール

Wan2.1は、多くのGPUパワーが必要になりますので、余裕をもって準備をしておきましょう。

最初にWan2.1専用の環境を設定します。

同じPC内で異なるプログラムのバージョンを利用するには、ソフト専用の環境を作ります。そうすることでパッケージの競合を防ぐことができます。

ここでは、conda環境を利用して整えます。

下記のコマンドを入力して環境を新規で構築します。

conda create -n Wan python=3.10
conda activate Wan
pip install torch==2.5.1+cu118 torchvision --extra-index-url https://download.pytorch.org/whl/cu118

環境の設定が完了したらデータのインストールに進みます。

ComfyUI」>「custom_nodes」を開き、下記のコマンドを入力してComfyUI用のWan2.1プロジェクトをインストールします。

cd ComfyUI/custom_nodes
git clone https://github.com/kijai/ComfyUI-WanVideoWrapper.git

ComfyUI-WanVideoWrapper」を開き、依存関係を取り除く追加データを入手します。

cd ComfyUI/custom_nodes/ComfyUI-WanVideoWrapper
pip install -r requirements.txt
STEP
学習データを入手する

次に、動画を生成するためのモデルデータを入手します。

動画生成に必要なモデルデータは下記の3つです。

  • 動画のモデルデータ
  • VAE
  • CLIP

動画のモデルデータ

動画のモデルデータをHugging Faceからダウンロードします。

  • Wan2_1-T2V-1_3B_fp8_e4m3fn.safetensors(1.47 GB)

最初は軽量版の「Wan2_1-T2V-1_3B_fp8_e4m3fn.safetensors」を使用します。

ComfyUI」>「models」>「diffusion_models」を開き、下記のコマンドを入力して動画のモデルデータをダウンロードして配置します。

cd ComfyUI/models/diffusion_models
wget https://huggingface.co/Kijai/WanVideo_comfy/blob/main/Wan2_1-T2V-1_3B_fp8_e4m3fn.safetensors

VAE

次にVAEのモデルデータをHugging Faceからダウンロードします。

  • wan_2.1_vae.safetensors(254 MB)

ComfyUI」>「models」>「vae」を開き、下記のコマンドを入力してVAEのモデルデータをダウンロードして配置します。

cd ComfyUI/models/vae
wget https://huggingface.co/Comfy-Org/Wan_2.1_ComfyUI_repackaged/blob/main/split_files/vae/wan_2.1_vae.safetensors

CLIP

最後にCLIPデータをHugging Faceからダウンロードします。

  • umt5_xxl_fp8_e4m3fn_scaled.safetensors(6.74GB)

ComfyUI」>「models」>「text_encoders」を開き、下記のコマンドを入力してCLIPデータフォルダをダウンロードして配置します。

cd ComfyUI/models/clip
wget https://huggingface.co/Comfy-Org/Wan_2.1_ComfyUI_repackaged/blob/main/split_files/text_encoders/umt5_xxl_fp8_e4m3fn_scaled.safetensors
STEP
「ComfyUI」を起動してワークフローを開く

今回は公式で配布されているテキストから動画を生成できるワークフローを使用します。

ワークフローデータは、公式に公開されているサンプルファイルをダウンロードして使用します。

導入前に「ComfyUI」を起動して最新版に更新しておきましょう。

ダウンロードしたワークフローデータ(text_to_video_wan.json)をComfyUIの画面にドラッグ&ドロップで読み込みます。

ノードが正常に反映されているか確認します。

STEP
パラメータを設定して生成開始!

ComfyUIの生成開始画面で、各種パラメータを変更していきます。

unet_name

・unet_nameにWan2_1-T2V-1_3B_fp8_e4m3fn.safetensors

を選択します。

clip名
・umt5_xxl_fp8_e4m3fn_scaled.safetensors

に設定します。

vae_name

・wan_2.1_vae.safetensors

を選択します。

その他のパラメータはデフォルトのままで問題ありません。

画面上部の▷Queueボタンの右側に数字を入力する欄あるので生成したい動画の本数を指定します。

その後「Queue」ボタンをクリックして生成を開始します。

使用したプロンプト

very awa, masterpiece, best quality, newest, highres, absurdres,1girl, popart, best quality, ultra detailed picture, dynamic posing, nvinkpunk, Gorgeous splash of vibrant paint, popart, smile, Super detailed eyes, Highly detailed face, Highly detailed eyes, Cowboy Shot, (Ultra-high resolution, Super detailed), (((stylish fashion))), 8K Quality,avant-garde pop art, Beautiful and expressive paintings, Beautiful artwork illustration,wonderful, Cool beauty, fringe, (lady:1.1), (reflection:1), (silhouette:1), A cheerful high school girl manager cheering for her team, wearing a crisp white sailor uniform with red ribbons,vibrant sunset lighting, dynamic pose with confetti in the air, school track field background with teammates practicing, anime-style illustration, soft shading, warm color palette, energetic atmosphere, detailed facial expression (sparkling eyes, bright smile),energetic pose, afternoon sunlight through windows, detailed, vibrant colors, dynamic composition, BREAK tracking camera,(impressionistic style, loose brushwork:1.3), dappled light, vivid colors, evocative atmosphere, (expressive movement, painterly textures:1.3)

Wan2.1(ComfyUI)で生成した動画

スポンサーリンク

Wan2.1の料金プランと商用利用は?

料金イメージの見出し画像

Wan2.1の料金プランと商用利用について解説します。

Wan2.1の公式プロジェクトはApache 2.0ライセンスのもとで提供されており、自由にコードを利用できます。

現在、公式の料金プランは発表されていません。しかし、将来的にアリババクラウドなどのプラットフォームでAPI提供される可能性があると考えられます。

その際、他の生成AIサービスと同様に、計算資源に応じた従量課金制や月額プランが導入される可能性があります

Wan2.1の商用利用は?

Wan2.1はApache 2.0ライセンスのもとで提供されており、商用利用を含めた幅広い用途での利用が認められています。

具体的には、以下のような行為が許可されています。

  • 商用利用
  • コードの改変・再配布
  • 特許の使用

ただし、今後、サービス提供時にライセンスが変更される可能性もあるため、商用プロジェクトで利用する際は、最新のライセンス情報を必ず確認しましょう。

Wan2.1/LICENSE
https://github.com/Wan-Video/Wan2.1/blob/main/LICENSE.txt

Wan2.1のような動画生成AIにはクラウドGPUがおすすめ

快適のイメージ見出し画像

Wan2.1をスムーズに利用するには、高スペックなパソコンが必要です。

ただし、Wan2.1を快適に利用できるような高性能なパソコンは、ほとんどが30万円以上と高額になります。

コストを抑えたい方へ:クラウドGPUの利用がおすすめ

クラウドGPUとは、インターネット上で高性能なパソコンを借りることができるサービスです。これにより、最新の高性能GPUを手軽に利用することができます。

クラウドGPUのメリット

  • コスト削減:高額なGPUを購入する必要がなく、使った分だけ支払い
  • 高性能:最新の高性能GPUを利用できるため、高品質な画像生成が可能
  • 柔軟性:必要なときに必要なだけ使えるので便利

Wan2.1を使いこなして動画生成AIをマスターしよう!

今回は、アリババが公開した動画生成AI「Wan2.1」の使い方について紹介しました。

Wan2.1は、Wan2.1は無料で利用できるだけでなく、商用利用にも対応しているため、個人から企業まで幅広いユーザーにとって利便性が高いモデルです。

無料で利用できる動画生成AIのオープンソースの中でトップクラスなので、このチャンスに高性能ツールで動画生成を極めてみましょう。

よかったらシェアしてね!
  • URLをコピーしました!
  • URLをコピーしました!
EdgeHUBロゴ

メールマガジン登録

Stable Diffusion・LLM・RAGに関する最新情報をいち早くお届けします。

無料メルマガの配信をご希望の方は、下記フォームよりご登録ください。

    EdgeHUB編集部からのお知らせ

    無料ウェビナーのお知らせ

    【実演】DeepSeekファインチューニング&RAG!ウェビナー 3/26開催

    業界を震撼させた革新的LLM「DeepSeek-R1」の使い方を解説する無料ウェビナー!

    開催日時:
    2025年3月26日(水) 14:00~15:00

    内容:

    • DeepSeek-R1の「ファインチューニング」と「思考するRAG」実演・解説
    • 業界最安級GPUクラウド「GPUSOROBAN」の紹介・使い方デモ

    このウェビナーでは、「DeepSeek-R1」のデモを交えてGPUクラウドの使い方を紹介します。

    生成AIに関心のある方、AI技術をビジネスに活かしたい方は、ぜひこの貴重な機会にご参加ください!

    こんな方におすすめ!

    • DeepSeek-R1の安全性に不安を感じている方
    • DeepSeek-R1のファインチューニングの方法を知りたい方
    • DeepSeek-R1を使った思考するRAGの構築方法を知りたい方
    • GPUのコスト、リソースに課題を感じている方

    希望者にはデモで使用したソースコードをプレゼント!

    \簡単30秒で申し込み!/

    この記事を書いた人

    EdgeHUBは、NVIDIAクラウドパートナーである株式会社ハイレゾが運営しています。「AIと共にある未来へ繋ぐ」をテーマに、画像生成AI、文章生成AI、動画生成AI、機械学習・LLM、Stable Diffusionなど、最先端の生成AI技術の使い方をわかりやすく紹介します。

    目次