DALL-E 3とは?読み方や基本的な情報をまとめて解説します

DALL-E 3とは?読み方や基本的な情報をまとめて解説します

DALL-E 3とは、日本語で手軽に使える画像生成AIのことです。

この記事では、DALL-E 2とDALL-E 3の違いや基本的な使い方などを紹介します。

目次

DALL-E 3とは?

DALL·E3
(出典:chat.openai.com)

DALL-E 3は、アメリカの企業であるOpenAIが開発した画像生成AIです。

画像生成AIとは、テキストから画像を生成できる技術を持っており、例えば「満開の桜と青空」といった具体的なイメージをテキストで入力すると、それに沿った画像を生成します。

DALL-E 3に関する詳しい内容は、このあと説明していきますが、先に画像生成AIについて知りたいという方は、こちらの記事もご覧ください。

DALL-E 3の読み方

DALL-E 3の読み方は「ダリ スリー」です。

「DALL-E」の由来は、スペインの画家「サルバドール・ダリ」と映画「WALL-E(ウォーリー)」からきているそうです。

独創的な画家と人間のようなロボット「ウォーリー」を由来としているDALL-E 3は、まさに人間の創造性とAI技術の融合を象徴するものと言えるでしょう。

DALL-E 3への進化の軌跡

煌めきのイメージの見出し画像

DALL-E(初代)は2021年1月にOpenAI社による公式ブログで発表されました。

後継であるDALL-E2は、2022年4月に発表され、9月に一般公開されました。

その翌年の2023年9月21日にはDALL-E2の後継であるDALL-E3が発表されました。

DALL-E 2に比べDALL-E 3で進化したのは主に次のような点です。

  • 言語の理解能力が向上
  • 著作権に配慮・安全性の向上
  • 縦長や横長の画像を生成できる

これらについて具体的に説明していきます。

言語の理解能力が向上

DALL-E 3では、言語の理解能力が向上しています。

次の具体例をOpenAI社が発表しています。

“An expressive oil painting of a basketball player dunking, depicted as an explosion of a nebula.”
( 爆発する星雲のように描かれた、バスケットボール選手がダンクする様子を表現豊かに描いた油絵。)

DALL-E 3 公式サイトより
DALLE 2-DALLE 3
(出典:openai.com)

生成結果を見てみると、DALL-E 2(左)ではダンクしているとは感じられない画像が生成されてしまいますが、DALL-E 3(右)ではダンクするバスケットボール選手を正しく理解して生成しています。

著作権に配慮・安全性の向上

DALL-E 3では、著作権への配慮や安全性が向上しています。

フェイクニュースに利用されないように、実在する人物の生成を拒否し、著作権に配慮してアニメキャラクターなどの生成も拒否します。

また、安心して利用できるように暴力的な画像や成人向けの画像が生成されないような配慮もされています。

縦長や横長の画像を生成できる

DALL-E 2では生成できる最大画像サイズは1024px×1024px(正方形)でした。

DALL-E 3では、正方形(1024px×1024px)に加え横長(1792px×1024px)や縦長(1024 px ×1792px)の画像を生成できるようになりました。

スポンサーリンク

DALL-E 3の特徴・商用利用は可能?

画像生成AIのイメージ

DALL-E 3は、難しい設定が必要なく、生成したいイメージをテキストで入力するだけで画像生成ができます。

これまでのバージョンに比べDALL-E 3は、言語処理能力が上昇していることで入力したテキストに忠実な画像が生成できるようになっています。

また、DALL-E 3はChatGPTやBing AIのようなチャット型AIと連携しているので、日本語による指示も可能です。

Bing Image CreatorではDALL-E 3を無料で利用できますが、生成した画像は商用利用ができません。

一方、ChatGPTの有料プラン「ChatGPT Plus」に登録してDALL-E 3で生成した画像は、商用利用が可能です。

ChatGPT PlusBing Image Creator
料金月額20ドル無料
日本語対応
商用利用
公式サイトhttps://chat.openai.com/auth/loginhttps://www.bing.com/images/create
(2024年4月の情報)

DALL-E 3を使うには、Bing Image CreatorやChatGPT plusが必要となりますが、詳しい使い方については次の章で説明します。

DALL-E 3の使い方

イラストイメージの見出し画像

DALL-E 3はChatGPTかBing AIで利用することができます。

Bing AIでは無料で利用ができますが、ChatGPTで利用する場合は、月額20ドルの「ChatGPT Plus」に登録が必要です。

どちらで利用する場合でも日本語で利用可能です。

Bing Image CreatorでDALL-E 3を利用する

ブラウザで「bing」と検索、もしくはこちらからアクセスします。

開いたら「Copilot」をクリックします。

(出典:bing.com)

「Copilot」を開いたらページ下部にある入力欄に生成したい画像をテキストで指示します。

Bing AI
(出典:bing.com)

今回は次の指示で画像を生成します。

画像指示

「ジャンガリアンハムスターブルーサファイアとキンクマが楽しそうに走っているイラストを描いて」

Bing AI
(出典:bing.com)

Copilotが日本語の指示を理解して、DALL-E 3画像を生成しました。

「キンクマ」は全身がクリーム色のゴールデンハムスターの日本での呼び名です。

一部に熊も生成されていますが、基本的にはゴールデンハムスターが生成されています。

ChatGPTでDALL-E 3を利用する

ChatGPTでDALL-E 3を利用する場合、有料プラン「ChatGPT Plus」の加入が必要になります。

まず、ChatGPT Plusに加入したアカウントでChatGPTを開きます。

ChatGPT4になっていることを確認して入力欄に生成したい画像を指示します。

DALL·E3
(出典:chat.openai.com)

今回は次の指示で画像を生成します。

画像指示

「ジャンガリアンハムスターブルーサファイアとキンクマが楽しそうに走っているイラストを描いて」

DALL-E 3
(出典:chat.openai.com)

こちらも日本語の指示を理解して、画像を生成しました。

「キンクマ」は全身がクリーム色のゴールデンハムスターの日本での呼び名ですが、その意味を理解してきちんとハムスターを描いています。

DALL-E 3 に細かく指示を出す

生成画像を思い描くイメージに近付けるためには、DALL-E 3に具体的な指示を出す必要があります。

例えば、横長の画像、背景にひまわり、キンクマをクリーム色の毛に近付けるよう指示します。

画像指示

「ジャンガリアンハムスターのブルーサファイアとクリーム色のゴールデンハムスター(キンクマ)が、背景に広がるひまわり畑で楽しそうに走っているイラスト。ブルーサファイアは美しい青みがかった毛色で、キンクマは柔らかなクリーム色の毛並みをしている。二匹は元気いっぱいにひまわり畑を駆け回り、その姿は見る人をも幸せな気持ちにさせる。ひまわりは太陽に向かって大きく咲き誇り、ハムスターたちの動きと楽しさを引き立てる。画像は横長で、ハムスターたちとひまわり畑の明るく楽しい雰囲気を捉える。」

DALL-E 3
(出典:chat.openai.com)

このように、具体的なイメージをDALL-E 3に指示することで、生成画像を自身の描いたイメージに近づけることができます。

DALL-E 3を使えば、絵のタッチも簡単に変更することもできます。

例えば、「アニメ風にしてください」や「水彩画風にしてください」などと指示すると、DALL-E 3が画風を変えて画像を生成してくれます。

ハムスターアニメ
ハムスター水彩画

下記の記事では様々なプロンプトの例を紹介しています。

DALL-E 3で画像生成を楽しもう!

DALL-E 3は日本語で指示ができるので、誰もが手軽に画像生成できますね。

DALL-E 3を使ってみたい場合は、まずは無料で使えるBing AIから試してみるのがおすすすめです。

GPUSOROBAN
https://soroban.highreso.jp/

よかったらシェアしてね!
  • URLをコピーしました!
  • URLをコピーしました!
EdgeHUB編集部からのお知らせ

無料ウェビナーのお知らせ

ソフトバンクSarashinaウェビナー

日本語LLM「Sarashina」& OCR機能「Phi-3 Vision」の 無料オンラインウェビナー!

開催日時:
2024年7月24日(水) 14:00~15:00

内容:

  • 「Sarashina」や「Phi-3 Vision」の概要と使い方の紹介
  • 生成AI開発の強い味方「GPUSOROBAN」の活用方法

このウェビナーでは、ソフトバンクの日本語の強いの大規模言語モデル「Sarashina」の使い方や、実際にどのように使えるかを具体的に紹介します。

また、画像からテキストを抽出するOCR機能を簡単に作成できる「Phi-3 Vision」の使い方もデモを交えてお見せします。

生成AIに関心のある方、AI技術をビジネスに活かしたい方は、ぜひこの貴重な機会にご参加ください!

こんな方におすすめ!

  • 最新のAI技術やトレンドに興味がある方
  • AI開発に携わっている方
  • 生成AIの実用的な活用方法を学びたい方
  • 新しいツールや技術を積極的に取り入れたい方

\参加申し込みはこちら!/

この記事を書いた人

EdgeHUBは、NVIDIAクラウドパートナーである株式会社ハイレゾが運営しています。「AIと共にある未来へ繋ぐ」をテーマに、画像生成AI、文章生成AI、動画生成AI、機械学習・LLM、Stable Diffusionなど、最先端の生成AI技術の使い方をわかりやすく紹介します。

目次