「OmniGen」ローカル環境の使い方!ComifyUIで画像生成AIに挑戦

「OmniGen」ローカル環境の使い方!ComifyUIで画像生成AIに挑戦

VectorSpaceLabは、マルチモーダル画像生成AIモデル「OmniGen」を2024年11月にリリースしました。

「OmniGen」は、単一のフレームワークで多様な生成作業を実行可能にすることを目指して開発されています。

この記事では、初心者向けに「OmniGen」の概要とローカル環境での使い方を詳しく解説します。

ブラウザで使えるStable Diffusion!

目次

OmniGenとは?

VectorSpaceLab
(出典:VectorSpaceLab)

OmniGenは、さまざまなタスクに対応可能な統合型画像生成モデルです。

従来のStable Diffusionなどの画像生成AIモデルにおいては、操作の複雑さが実用性を下げることになってしまうのが課題でした。

OmniGenは、この問題を解決するために設計されたプロジェクトで、複雑なタスクを簡単な操作で実行することができます。

OmniGenの大きな特徴は下記の3つです。

OmniGenの特徴
  • 多様な画像生成タスクを統一的に処理可能に!
  • 大規模言語モデル(LLM)の利用により、テキストだけで簡単に画像が生成できる!
  • 多様な画像生成タスクを単一モデルで実行できる!

多様な画像生成タスクを統一的に処理可能に!

omnigen11
(出典:VectorSpaceLab)

OmniGenは、画像の編集と生成のプロセスを効率化することを目的に作られた生成AIモデルです。

複雑な生成作業を伴うControlNetのような拡張機能を使用せず、基本モデルだけで直感的な生成を可能にします。

さらに、テキストだけでなく、画像をプロンプトとして利用できるため、創作の幅が広がります。

大規模言語モデル(LLM)の利用により、テキストだけで簡単に画像が生成できる!

omnigen3
(出典:VectorSpaceLab)

OmniGenは、大規模言語モデル(LLM)を使用しており、ユーザーのテキスト入力だけで簡単に画像を編集できます。

複雑な処理に対しても理解力の高いLLMによって的確に処理が進められるので、これまでのように複雑なオブジェクト条件を指定する必要がなく、初心者でも簡単に使いこなせます。

多様な画像生成タスクを単一モデルで実行できる!

omnigen12
(出典:VectorSpaceLab)

OmniGenは、テキストと画像の両方を条件として受け入れ、さまざまな画像生成タスクを1つのモデルで実行することができます。

このモデルは追加のエンコーダを必要とせず、テキストと画像を単一のモデルで処理します。その結果、既存のモデルよりもシンプルでユーザーフレンドリーなものとなっています。

また、最大3つの参照画像をアップロードして、新しい画像を生成することも可能です。

OmniGen ComifyUIでの始め方・使い方

見出し画像

ここでは、「ComfyUI」上でのOmniGenの始め方から使い方まで紹介します。

STEP
「ComfyUI」を使って生成

OmniGenは、多くのGPUパワーが必要になりますので、余裕をもって準備をしておきましょう。

今回はcivitaiで公開されている「Another Omnigen ComfyUI Workflow」を使って画像を生成します。

まずは、ページ内のワークフローデータを先にダウンロードします。

omnigen_civitai
(出典:civitai)

導入前に「ComfyUI」を起動して最新版に更新しておきましょう。

STEP
OmniGenのプロジェクトをインストール

次に、OmniGen専用の環境を設定します。

OmniGenは、Python、PyTorch、CUDAのバージョンにそれぞれ推奨設定がありますので、conda環境を利用し整えます。

同じPC内で異なるプログラムのバージョンを利用するには、ソフト専用の環境を作ります。そうすることでパッケージの競合を防ぐことができます。

下記のコマンドを入力して環境を新規で構築します。

conda create -n omnigen python=3.10.13
conda activate omnigen
pip install torch==2.3.1+cu118 torchvision --extra-index-url https://download.pytorch.org/whl/cu118

環境の設定が完了したらデータのインストールに進みます。

ComfyUI」>「models」を開き、下記のコマンドを入力してOmniGenをインストールします。

git clone https://github.com/VectorSpaceLab/OmniGen.git

OmniGenのフォルダが作成できたら、「ComfyUI」>「models」>「OmniGen」を開き、必要な追加データを入手します。

pip install -r requirements.txt
STEP
「ComfyUI」を起動してノードを入手

データのセットが完了したらComfyUIを再起動してOmniGen用に足りないノードを補充していきます。

ダウンロードしたワークフローデータ(Omnigen 2a.json)をComfyUIの画面にドラッグ&ドロップで読み込みます。

Genmo_workflow

ポップアップでメッセージされている赤くなっている部分が未入手のカスタムノードなので、一つずつ補填していきます。

omnigen

右のパネルの「Manager」ボタンをクリックして、中列の「Install Missing Custom Nodes」を選択します。

足りないカスタムノードが一覧で表示されるので、すべてのノードをインストールします。

omnigen

完了したらリスタートボタンをクリックして「ComfyUI」を再起動します。

STEP
パラメータを設定して生成開始!

再起動後、赤いノードがないことを確認して生成を開始します。

omnigen

OmniGenの特徴は、素材の画像をプロンプトの内容に変更・アレンジすることです。

まずは素材の画像を用意して読み込み、変更したい内容をプロンプトに入力します。

omnigen

image_1
・image_1に素材の画像を読み込みます
choose file to uploadでファイルをアップします。

その他のパラメータはデフォルト値で問題ありません。

omnigen

Prompt

・変更内容を含めたプロンプトを入力します。

プロンプト内にimage_1を必ず含めます。

今回は素材の画像の背景をお城が見えるように変更します。

各種のパラメータやプロンプト以外の入力項目やパラメータは、入力しなくても問題ありません。

生成は右上の「Queue Prompt」ボタンをクリックします。

初回の生成はモデルデータのダウンロードを伴うので時間がかかります。

使用したプロンプト

image_1 Arranged in background to Room with a castle view

生成画像

スポンサーリンク

OmniGenの料金プランと商用利用は?

料金イメージの見出し画像

OmniGenの料金プランと商用利用に関して紹介します。

OmniGenの公式プロジェクトはApache 2.0 ライセンスでリリースされていて、自由にコードを利用することができます。

Huggingfaceでは、無料で生成が試せるオンラインデモページが公開されています。

OmniGenの商用利用は?

OmniGen公式GitHubでは、「個人使用および商用使用に自由に利用できます」とコメントされています。

OmniGenで生成された画像は、他の人の肖像画や関連写真を使用して許可なく生成しない限り、商用目的で使用できます。

概要は以下の通りです。

「OmniGen」MITライセンス
https://github.com/VectorSpaceLab/OmniGen?tab=MIT-1-ov-file

OmniGenを使いこなして生成AIをマスターしよう!

今回は、VectorSpaceLabが公開したマルチモーダル画像生成AI「OmniGen」の使い方について紹介しました。

OmniGenは、従来の画像生成サービスと比較して、最も最先端で画像生成における様々な機能が内包されています。

無料で利用できる画像生成AIのオープンソースの中でトップクラスなので、このチャンスに高性能ツールで画像生成を極めてみましょう。

よかったらシェアしてね!
  • URLをコピーしました!
  • URLをコピーしました!
EdgeHUBロゴ

メールマガジン登録

Stable Diffusion・LLM・RAGに関する最新情報をいち早くお届けします。

無料メルマガの配信をご希望の方は、下記フォームよりご登録ください。

    EdgeHUB編集部からのお知らせ

    無料ウェビナーのお知らせ

    RAG進化のさらに先へ!自立型AIエージェント ウェビナー【12/25無料開催】

    RAG進化のさらに先へ! 大好評につきRAGシリーズ第3弾が開催決定!

    開催日時:
    2024年12月25日(水) 14:00~15:00

    内容:

    • RAGの精度を向上させる「自律型AIエージェント」のデモ
    • 生成AI開発の強い味方「GPUSOROBAN」の活用方法

    このウェビナーでは、オープンソース「LangGraph」で構築したAIエージェントの使い方や、デモを紹介します。

    生成AIに関心のある方、AI技術をビジネスに活かしたい方は、ぜひこの貴重な機会にご参加ください!

    こんな方におすすめ!

    • 自律型AIエージェントに興味がある方
    • RAGの高度化を検討しているエンジニアや開発者
    • 日本語のローカルLLMの利用を検討している方
    • GPUリソースに課題を感じている方

    \簡単1分で申し込み!/

    この記事を書いた人

    EdgeHUBは、NVIDIAクラウドパートナーである株式会社ハイレゾが運営しています。「AIと共にある未来へ繋ぐ」をテーマに、画像生成AI、文章生成AI、動画生成AI、機械学習・LLM、Stable Diffusionなど、最先端の生成AI技術の使い方をわかりやすく紹介します。

    目次