「Sora」とは？一般公開はいつから？最新の動画生成AIの恐るべき進化

2024年3月13日2024年6月25日

動画生成AI「Sora」が2024年2月15日にOpenAI社から発表され、世界中で大きな注目を集めています。

この記事では、テキストから動画を生成するAIシステムSoraの特徴や活用方法について詳しく解説します。

ブラウザで使えるStable Diffusion！

動画生成AI「Sora」とは？

「Sora」は、アメリカに拠点を構える、AIを専門とする非営利研究機関であるOpenAIが開発した動画生成AIのサービスです。

2022年11月に対話型AI「ChatGPT」を公開し、一躍有名になりました。

「Sora」は、テキストの指示を基にして最長1分の動画を生成することができるAIです。

「Sora」の特徴は大きく3つあります。

複雑なシーンの生成能力
物理法則に基づいた世界の表現
既存動画の編集や異なる動画の組み合わせも可能

複雑なシーンの生成能力

(出典:openai.com)

OpenAIは、Soraを「複数のキャラクター、特定の種類のモーション、被写体と背景の正確な詳細を含む複雑なシーン」を「物理世界にどのように存在するのかを理解」した上で動画を生成できるAIであると説明しています。

プロンプトの要求を満たして映像を単に量産するだけではなく、与えられた「文法」を理解したことが示されているAIであるというのが重要なポイントになっています。

物理法則に基づいた世界の表現

現在までに公開されている動画生成AIは、複雑な状況で正確に物理的なシミュレートをするのが難しく、動きの原因と結果を理解できないという問題がありましたが、「Sora」ではこれが解決されてきていることが大きな特徴です。

デモムービーを見ると人が障害物を避けながら歩く様子や、水面に映る街並みがリアルタイムで変化していく様子など、空間的な情報の処理がしっかり反映されています。

既存動画の編集や異なる動画の組み合わせも可能

Soraはテキストから動画を生成できるだけではなく、既存の動画を編集することもできます。

通常被写体を維持しながら背景だけを編集するのは、極めて困難で膨大な手間がかかってしまいますが、Soraはこの問題を解決します。

(出典:openai.com)

こちらの動画は「車が道路を走っている動画」と「虎が道を走っている動画」を組み合わせて生成された動画です。

車の後ろから虎が追走してきているのが分かります。

Soraを活用することで、これまで動画に出来なかったアイデアが具現化し、クリエイティブな作品がたくさん出てくることが予想されます。

動画生成AI「Sora」の一般公開はいつから？

Soraが、一般公開される時期に関してOpenAIのCTOであるMurati氏が「年内、早ければ数ヶ月以内」と語っています。

OpenAI公式発表では、「Sora」の性能が非常に高いため、AIの安全性や倫理性を評価するレッドチームがその安全な使用方法について検討を進めている最中のようです。

リリースに向けて、書き出してみたい動画の内容を今からまとめておくのがいいかもしれません。

動画生成AI「Sora」の仕組み

動画が生成されるまでの「Sora」の仕組みを公式サイトのテクニカルレポートを参照しながら、簡単に紹介します。

Soraでは以下の構成順でデータが生成されます。

1. 動画を小さく分割して学ぶ

まずSoraは、動画を「低次元の潜在空間」と呼ばれる簡単で扱いやすい形に変換します。

その後、Soraは動画を小さく分解して学び、この学習データをもとにさまざまな動画を生成することができます。

2. 画像を粗くしてから修復して動画生成していく

Soraは、画像を粗くしてから、その画像を修復していくという「拡散モデル」で画像の学習を進めます。

動画は画像の連続として成立しているので、この生成方法を大きなスケールで行います。

3. DALL・E 3でテキストから動画を作る

Soraは画像生成AI「DALL・E 3」を元に、画像をテキストとして処理する方法を応用して動画を作成します。

入力されたテキスト情報からピースとして組み合わせ、さまざまな解像度、長さ、アスペクト比の動画を生成していきます。

Soraの高クオリティな動画が生成される仕組みは、DALL・E3とGPTの既存技術の結晶であると言えます。

フェイク動画などへの配慮

OpenAIは、誤報、憎悪的なコンテンツ、偏見などの分野の専門家と協力し、悪用される危険性があると言われていることに対して重要な安全措置を講じる予定があると発表しています。

Soraによって動画が生成されたかどうかを示すタグを標準的に埋め込むことによって、フェイクコンテンツの検出に役立てるとしています。

動画生成AI「Sora」の使い方

(出典:openai.com)

「Sora」の使い方は、作りたい動画をテキスト（プロンプト）で入力するだけです。

この動画のプロンプトは次のようになっています。

“Beautiful, snowy Tokyo city is bustling. The camera moves through the bustling city street, following several people enjoying the beautiful snowy weather and shopping at nearby stalls. Gorgeous sakura petals are flying through the wind along with snowflakes.”
openai.com

翻訳すると、「美しい雪の東京の街は賑わっています。カメラはにぎやかな街路を移動し、美しい雪の天気を楽しんだり、近くの屋台で買い物をしたりする数人の人々を追っています。華やかな桜の花びらが雪の結晶とともに風に乗って舞います。」

文脈を理解し、人が自然に想像できる風景を見事に表現しています。

2024年2月28日の時点では、アーティストやデザイナーなどの一部ユーザーのみしか、Soraへのアクセスが許可されていません。

同じOpenAIのサービスであるChatGPTやDALL·Eの例を見ると、Soraも無料と有料の両方でサービスが展開されると予想できます。

私たちも気軽に使える日がくるのが楽しみですね。

また、2024年4月15日にアドビから動画編集ソフト「Adobe Premiere Pro」の中にSoraが導入されることが発表されています。