MMaDAとは、ByteDanceが2025年6月に発表した最新のAIツールで、テキストと画像を統合的に扱うことができる生成AIモデルです。
従来の大規模言語モデル(LLM)や画像生成AIをさらに進化させたもので、テキストと画像の両方に対して高い生成・理解能力を持つことが特徴です。
この記事では、初心者にも分かりやすく、MMaDAの概要とローカル環境での導入・使い方を解説します。
MMaDAとは?

MMaDAは、GPT-4oやClaude-3.5と比べてテキスト・画像の統合処理が優れています。
MMaDAは、従来のAIモデルを大きく上回るマルチモーダル処理能力を持ち、テキスト・画像の両領域で最高水準の性能を示しています。
特に複雑な推論や統合的なタスク処理での優位性が際立っており、今後の生成AI分野における新たな基準となるモデルと評価されています。
モデル名 | テキスト生成 | 画像生成 | テキスト・画像統合 | 特徴 |
---|---|---|---|---|
GPT-4o | ◎ | △ | △ | テキスト中心の大規模言語モデル |
Claude-3.5 | ◎ | △ | △ | 高精度なテキスト処理が得意 |
MMaDA | ◎ | ◎ | ◎ | テキストと画像の統合処理が可能 |
記号の意味: ◎…得意 △…やや対応(または限定的)
このように、MMaDAはテキスト生成・画像生成・テキストと画像の統合処理のすべてに強みがあり、他のモデルよりも幅広く対応できるのが特徴です。
MMaDAの機能の概要

MMaDAは、テキストや画像などいろいろなタイプのデータ(モダリティ)に対応できるシンプルな仕組みを持ったAIモデルです。
思考の流れを様々なデータにも同じように活用できる工夫や、強化学習という方法で性能をさらに高める仕組みも取り入れています。
総合的に多種類の情報を賢く扱える、最先端のマルチモーダルAIの基盤となるモデルです。
オープンソースモデルで、無料で利用することができる
MMaDAは、MITライセンスのもとで公開されており、無料で利用可能です。
MMaDAはローカル環境、クラウド環境で動作が可能で、カスタマイズや独自用途への適用が容易です。
オープンソース化により、学術研究者や企業が初期費用を抑えつつ、高品質な動画生成技術をプロジェクトに統合できます。

Stable Diffusionの使い方は、機能別に下記の記事にまとめているのでぜひご覧ください

MMaDAの始め方・使い方

ここからは、ローカル環境での「MMaDA」の始め方から使い方まで紹介します。
現在はLinux用のソースコードのみ公開されています。
MMaDAは、多くのGPUパワーが必要になりますので、余裕をもって準備をしておきましょう。
最初にベースとなるMMaDA専用の環境を設定します。
同じPC内で異なるプログラムのバージョンを利用するには、ソフト専用の環境を作ります。そうすることでパッケージの競合を防ぐことができます。
ここでは、conda環境を利用して整えます。
下記のコマンドを入力して環境を新規で構築します。
conda create -n mmada python=3.10
conda activate mmada
pip install torch==2.5.1+cu118 torchvision --extra-index-url https://download.pytorch.org/whl/cu118
環境の設定が完了したらプロジェクトのインストールに進みます。
下記のコマンドを入力してComfyUI用のMMaDAプロジェクトをインストールします。
git clone https://github.com/Gen-Verse/MMaDA.git
「
MMaDA」を開き、依存関係を取り除く追加データを入手します。cd MMaDA
pip install -r requirements.txt
プロジェクトのインストールが完了したらアプリケーションを起動します。
初回起動はモデルデータのダウンロードが始まりますので、数分かかります。
cd MMaDA
python app.py

Running on local URL: http://127.0.0.1:7860 を「Crrl+クリック」でブラウザを開きます。
※ローカル以外のPCを利用する場合は、public URLを渡してクリックします。
ブラウザを開くとTOP画面を開きます。
選択できるLLMモデルは「MMaDA-8B-Base」のみとなっています。(2025/6/9 現在)

生成できるツールは3種類に別れています。
Part 1. Text Generation(文章生成)
Part 2. Multimodal Understanding(画像の解析)
Part 3. Text-to-Image Generation(画像生成)
Part 1. Text Generationで以下の質問文をプロンプト入力してみます。
(和訳)再生可能エネルギーの利点と欠点を、分かりやすく説明してください。
Please explain the advantages and disadvantages of renewable energy in a simple way.

プロンプトの入力が終わったら下部の生成ボタンをクリックして生成を開始します。
Renewable energy has several advantages and disadvantages.
Advantages:
- Energy Dependence:
- Renewable energy is a renewable resource, meaning meaning it cannot be replenished.
- It is a renewable energy source, meaning it does not rely on other finite sources of energy.
- Energy Sources:
- Renewable energy can be obtained from various sources, such as solar, wind, and geothermal power.
- It is a crucial choice for energy generation and and energy resources.
Disadvantages:
- Energy Consumption:
- Renewable energy is a renewable resource, meaning it can be harvested to reduce energy consumption…
しっかり要点をまとめてくれました。以下和訳です。
再生可能エネルギーには、いくつかの利点と欠点があります。
利点:
- エネルギー依存度:
- 再生可能エネルギーは再生可能な資源であり、つまり補充できないものです。
- 他の有限なエネルギー源に依存しない再生可能なエネルギー源です。
- エネルギー源:
- 再生可能エネルギーは、太陽光、風力、地熱発電など、多様な源から得ることができます。
- これは、エネルギー生成とエネルギー資源の重要な選択肢です。
デメリット:
- エネルギー消費:
- 再生可能エネルギーは再生可能な資源であるため、エネルギー消費を削減するために利用できます…
次は画像生成に挑戦してみます。
雲の上を歩いている猫を画像にして生成してみたいと思います。
a fluffy orange tabby cat walking slowly on a cloud
Part 3. Text-to-Image Generationに移動してプロンプトを入力し、生成ボタンをクリックして生成を開始します。


スポンサーリンク
MMaDAの料金プランと商用利用は?

MMaDAの料金プランと商用利用について解説します。
MMaDAのプロジェクトはMITライセンスのもとで提供されており、自由にコードを利用できます。
MMaDAの商用利用は?
MMaDAは、MIT Licenseのもと提供されており、商用利用を含む幅広い用途での利用が可能です。
ただし、再配布やコードの改変時に配布する際には、著作権表示とライセンスの全文の記載が必要になります。
MMaDAのような動画生成AIにはクラウドGPUがおすすめ

MMaDAで高度なマルチモーダル処理を行うには、高スペックなパソコンが必要です。
ただし、MMaDAを快適に利用できるような高性能なパソコンは、ほとんどが30万円以上と高額になります。
コストを抑えたい方へ:クラウドGPUの利用がおすすめ
クラウドGPUとは、インターネット上で高性能なパソコンを借りることができるサービスです。これにより、最新の高性能GPUを手軽に利用することができます。
クラウドGPUのメリット
- コスト削減:高額なGPUを購入する必要がなく、使った分だけ支払い
- 高性能:最新の高性能GPUを利用できるため、高品質な画像生成が可能
- 柔軟性:必要なときに必要なだけ使えるので便利
MMaDAを使いこなして動画生成AIをマスターしよう!
今回は、動画生成AI・Wan2.1の最新バージョン「MMaDA」の使い方について紹介しました。
MMaDAは、あらゆる方法で動画生成が可能なオールインワンタイプのワークフローで。無料で利用することができます。
無料で利用できる動画生成AIのオープンソースの中でトップクラスなので、このチャンスに高性能ツールで動画生成を極めてみましょう。