話題のAI「MMaDA」とは？最強AIツールの使い方をわかりやすく解説

2025年6月9日

MMaDAとは、ByteDanceが2025年6月に発表した最新のAIツールで、テキストと画像を統合的に扱うことができる生成AIモデルです。

従来の大規模言語モデル（LLM）や画像生成AIをさらに進化させたもので、テキストと画像の両方に対して高い生成・理解能力を持つことが特徴です。

この記事では、初心者にも分かりやすく、MMaDAの概要とローカル環境での導入・使い方を解説します。

MMaDAとは？

MMaDAは、GPT-4oやClaude-3.5と比べてテキスト・画像の統合処理が優れています。

MMaDAは、従来のAIモデルを大きく上回るマルチモーダル処理能力を持ち、テキスト・画像の両領域で最高水準の性能を示しています。

特に複雑な推論や統合的なタスク処理での優位性が際立っており、今後の生成AI分野における新たな基準となるモデルと評価されています。

モデル名	テキスト生成	画像生成	テキスト・画像統合	特徴
GPT-4o	◎	△	△	テキスト中心の大規模言語モデル
Claude-3.5	◎	△	△	高精度なテキスト処理が得意
MMaDA	◎	◎	◎	テキストと画像の統合処理が可能

記号の意味： ◎…得意　△…やや対応（または限定的）

このように、MMaDAはテキスト生成・画像生成・テキストと画像の統合処理のすべてに強みがあり、他のモデルよりも幅広く対応できるのが特徴です。

MMaDAの機能の概要

MMaDAは、テキストや画像などいろいろなタイプのデータ（モダリティ）に対応できるシンプルな仕組みを持ったAIモデルです。

思考の流れを様々なデータにも同じように活用できる工夫や、強化学習という方法で性能をさらに高める仕組みも取り入れています。

総合的に多種類の情報を賢く扱える、最先端のマルチモーダルAIの基盤となるモデルです。

オープンソースモデルで、無料で利用することができる

MMaDAは、MITライセンスのもとで公開されており、無料で利用可能です。

MMaDAはローカル環境、クラウド環境で動作が可能で、カスタマイズや独自用途への適用が容易です。

オープンソース化により、学術研究者や企業が初期費用を抑えつつ、高品質な動画生成技術をプロジェクトに統合できます。

MMaDAの始め方・使い方

ここからは、ローカル環境での「MMaDA」の始め方から使い方まで紹介します。

現在はLinux用のソースコードのみ公開されています。

STEP

MMaDA のプロジェクトをインストール

MMaDAは、多くのGPUパワーが必要になりますので、余裕をもって準備をしておきましょう。

最初にベースとなるMMaDA専用の環境を設定します。

同じPC内で異なるプログラムのバージョンを利用するには、ソフト専用の環境を作ります。そうすることでパッケージの競合を防ぐことができます。

ここでは、conda環境を利用して整えます。

下記のコマンドを入力して環境を新規で構築します。

conda create -n mmada python=3.10
conda activate mmada
pip install torch==2.5.1+cu118 torchvision --extra-index-url https://download.pytorch.org/whl/cu118

環境の設定が完了したらプロジェクトのインストールに進みます。

下記のコマンドを入力してComfyUI用のMMaDAプロジェクトをインストールします。

git clone https://github.com/Gen-Verse/MMaDA.git

「MMaDA」を開き、依存関係を取り除く追加データを入手します。

cd MMaDA
pip install -r requirements.txt

STEP

MMaDAを起動

プロジェクトのインストールが完了したらアプリケーションを起動します。

初回起動はモデルデータのダウンロードが始まりますので、数分かかります。

cd MMaDA
python app.py

Running on local URL: http://127.0.0.1:7860　を「Crrl+クリック」でブラウザを開きます。

※ローカル以外のPCを利用する場合は、public URLを渡してクリックします。

STEP

「MMaDA」を起動して機能を確認

ブラウザを開くとTOP画面を開きます。

選択できるLLMモデルは「MMaDA-8B-Base」のみとなっています。（2025/6/9 現在）

生成できるツールは3種類に別れています。

Part 1. Text Generation（文章生成）

Part 2. Multimodal Understanding（画像の解析）

Part 3. Text-to-Image Generation（画像生成）

STEP

生成開始！

Part 1. Text Generationで以下の質問文をプロンプト入力してみます。

（和訳）再生可能エネルギーの利点と欠点を、分かりやすく説明してください。

プロンプト

Please explain the advantages and disadvantages of renewable energy in a simple way.

プロンプトの入力が終わったら下部の生成ボタンをクリックして生成を開始します。

生成結果

Renewable energy has several advantages and disadvantages.

Advantages:

Energy Dependence:

Renewable energy is a renewable resource, meaning meaning it cannot be replenished.
It is a renewable energy source, meaning it does not rely on other finite sources of energy.

Energy Sources:

Renewable energy can be obtained from various sources, such as solar, wind, and geothermal power.
It is a crucial choice for energy generation and and energy resources.

Disadvantages: