近年のIT技術の進化は非常に著しいものとなっており、社会に様々なイノベーションをもたらしています。
そんなIT技術の中でも、AIに関する技術、それも生成AIは良い意味でも悪い意味でも社会に大きな衝撃を与えました。映像や画像、文書などをコンピュータで自動生成することがで、更に利便性の高い社会にしてくれるという期待がある一方、著作権への侵害や犯罪などに転用されるリスクも叫ばれています。
IT業界に限らずビジネスに関わるものであれば、今後自社のビジネスが淘汰されないためにも、生成AIについて学んでおくことは非常に重要です。
そこで本記事では、そんな生成AIにおいて代表的な企業であるOpenAIのsoraについて、使い方を始めとした詳細を解説していきます。
生成 AI soraとは?
そもそも生成AIのsoraとは、Chat GPTの開発元であるOpenAIが2024年の2月に発表した生成AIの1つです。
技術的にはビジュアルパッチの集合体などを使用しており、指示文であるテキストを入力するだけで非常にリアルな動画を生成することができるサービスになります。また、画像から動画を生成することや、動画の細かい演出であるスタイルを変えることも可能です。soraでできることや技術については、以下の項目で更に詳しく解説していきます。
生成 AI soraにできること
生成AIのsoraにできることとしては、前述した様に非常に手軽に動画を作成できることがあげられます。従来の場合ですと、1つの動画を作るにはロケを行ったり、CGを作ったり、イラストを何枚も書いたりと、ある程度のお金や技術、労力が必要でした。
しかし、OpenAIのsoraをダウンロードすれば、それらのコストを大幅に圧縮することが可能になります。これらはエンタメ業界だけでなく、防災や建築など、様々な業界での活用が期待されています。
Text-To-Video
soraの代表的な機能と言っても過言ではないのがText-To-Video、つまり、前述したテキストの内容を動画に変換する機能のことです。
動画の内容についてはテキストベースでかなり細かく指定できるため、soraで生成された動画のクオリティは非常に高く、一見すると本物と区別がつかないほどにリアルな動画を生成することが可能です。
冒頭でも解説したように、動画内の建造物や人物の見え方や演出についても細かく指定することができます。仮に短いテキストだったとしても、sora自身がかなり正確にテキストの入力者の意図を推測してくれるため、クオリティの高い動画を生成可能です。
つまりこれは現実世界にあるものをコンピュータが理解しているだけでなく、どのように加工すれば周囲に溶け込ませられるかということもAIが理解していることになるため、非常に使い勝手が良いサービスということになります。
また、動画の長さも最大1分と長いため、かなりの情報量を動画内に詰め込むことが可能になります。
Image-to-Video、Video-to-Video
soraは前述した様にテキストから動画を生成するだけでなく、画像を基に動画を生成することや既存の動画の前後に内容を追加して拡張することも可能になります。より細分化すると、以下のような機能が利用できます。
- 画像のアニメーション化
- 動画を前後に拡張
- 動画の編集
- 動画の接続
- 最大 2048×2048 の解像度まで動画を生成
画像のアニメーションについては、動画のもととなる画像と共に、どのような情報を追加するのか、そのように動かすかなどをテキストで指示することによって動画を生成することが可能になります。
動画を前後に拡張については、元となる動画の前後を拡張することで、伝えられる情報の量を増やすことができます。従って、元となる動画によっては無限ループに陥っているかのように編集することも可能です。
動画の編集については、特別なエフェクトを動画に付与することで、伝えたい箇所を強調したり、現実世界ではありえないような現象を動画内で実現することが可能になります。
動画の接続については、複数の動画を生成元とし、それらをつなぎ合わせることで1つの長い動画にすることが可能になります。
最大 2048×2048 の解像度まで動画を生成については、soraのAIを活用し、足りない情報を推測・保管させることによって解像度を上げ、より動画をきれいに見せることが可能になります。
シミュレーション能力
生成AIの中でも特筆すべき機能と言えるのが、シミュレーション能力です。この機能の画期的なところが、人工的なプロセスをシミュレートして動画にすることができる点です。
より具体的に開設すると、何らかの構造物や絵などの写真を読み込ませることで、それらが出来上がるまでの過程をsoraが推測し、1分程度の動画に纏めてくれる、というものです。
従って、完成までの詳細な手順を知らなくても、その手順を画像に起こせることになります。データを欠損なく保存、もしくは抽出するという技能は人間よりも機械の優れていると良く言われますが、それに加えて目の前にある情報がどういったものなのかを解析する能力もAIに加えることでこのような機能が実現可能となります。
この機能を上手く利用すれば、建築方法や手術の方法などの学習効率を飛躍的に高めることができるようになる一方で、著作権や企業秘密を守ることがより一層難しくなるなどのデメリットも生じる可能性があるため、使用の枠組みを早急に作り上げることが政府や自治体に求められます。
Soraの機能を実現している技術
soraのような高機能で革新的なサービスには多くの技術が集まり、それらを上手く連携させることによって実現させています。
ビジュアルパッチの集合として表現
soraは、画像や動画をビジュアルパッチの集合として解釈、表現しています。パッチとは要するに小さなデータの塊で、これらを多数集める事で動画や画像という1つの電子情報となるのです。つまりsoraは、画像や動画を極めて小さい単位に分解しているのです。
Video compression network(ビデオ圧縮ネットワーク)で動画を生成
ビデオ圧縮ネットワークとは、動画や画像などの視覚データを生のまま受け取って解析することを言います。
通常、動画や画像などのデータはOSなどを通過させる必要があるため、生のデータから何らかの加工をする必要がありますが、soraはそれらの手間を省くことで動画を素早く解析、加工することができます。
Spacetime Latent Patches(時空潜在パッチ)で生成されるビデオのサイズの制御
時空潜在バッチとは、映像の大きさや解像度などを学習させて推論、自動で加工することです。従ってsoraで生成された動画を改めて人の手で加工する必要はありません。
ディフュージョントランスフォーマーで動画生成
ディフュージョントランスフォーマーとはビデオ精製用のトランスフォーマーで、動画内の邪魔なデータ、つまりノイズなどを自動で除去してくれる機能です。
これはトレーニングの量が多いほど、つまりデータをsoraに読み込ませれば読み込ませるほど、クオリティが高くなります。
GPTを活用してプロンプトに正確に従った高品質の動画を生成
soraの1番の魅力はテキストに書かれた言語を適切に理解して動画を生成することです。これはGPTを活用していることで可能となっています。
つまり、短くて簡単な指令を詳細な指令に置き換えて解釈することによって、高品質な動画を生成しているのです。
生成 AI sora利用方法や料金は
OpenAIのsoraは2024年2月の段階で、まだ一般に公開されていません。従って利用料金なども不明となっていますので、画像などから動画を生成するこの便利なサービスを利用することはできません。
現在OpenAIは、soraが悪用されないための対策や、soraで作成した動画であることを証明できるようなツールを開発中です。
soraを始めとした生成AIに必ずと言って良いほど、いつもついて回る問題の1つが著作権の侵害や犯罪へのリスクです。
OpenAIとしてもそれらのリスクに対処しないわけにはいかないため、それらへの対策が万全となった時に初めて一般公開される可能性が高いです。日本でsoraを利用できるようになるまでは、まだもう少し時間がかかりそうです。
Soraの問題点は?
Soraは非常に画期的なサービスですが、全く問題がないという訳ではありません。前述した様な著作権の侵害や犯罪などのリスク以外に、機能それ自体にもまだまだ改善の余地があります。
ただ、従来の機械と違ってAIの場合はデータが蓄積されるにつれてクオリティが上がっていくという特徴があるため、ユーザーと使用回数が増えるにつれて改善に向かう可能性も高いです。
OpenAIとしても一般消費者の声を拾いつつ機能を改善していくと思われるので、今から上げる問題点はいずれかなり改善される可能性もあります。
物理を正確にモデル化できていない
初めに読み込ませるデータがどのくらいになるかはわかりませんが、soraもテキストに入力された指示を必ずいつも正確にモデル化できるかは未知数です。
例えば、夜の都市の動画を生成しようとsoraに指示を出しても、どのくらい暗くて物体がどのように光を反射しているか、などを正確に機械が解釈して表現することは至難の業です。
機械に感性や芸術的センスを持たせることはまだ非常に難しいため、前述した様な複雑なシーンを物理的にシミュレートすることはsoraを始めとしたAIは苦手としています。
ユーザー側としても指示できる範囲に限界があるため、AIで全て思い通りの動画を間違いなく作る、という未来はまだまだ先になりそうです。
空間や時間に関する指示を間違える
同じ人間同士でさえ、指示を取り違えることもあるので、生物ですらない機械であればそれは猶更です。
例えば綺麗な女性と言われれば、人間であれば目鼻などの顔立ちやスタイルが整った女性をイメージする事が多いですが、単に泥などの汚れがない女性を機械がイメージして画像を生成したとしても間違いとは言えません。
特に指示が複雑になればなるほど、それらをユーザーの意図通りに正確に解釈してシミュレートしにくくまります。
とはいえ、これらの問題はsoraが様々な人に利用され、利用された時のデータやフィードバックが蓄積されるにつれてAIが学習していくので、問題は緩和、若しくは解決に向かっていく可能性が高いです。ただ、最初に利用する個人やグループは苦労する可能性が高いです。
Soraの活用方法
画像や文章を動画にすることで、1つの製作物に込められる情報量を大幅に増やすことができる上に、伝えられた側としても処理できる情報の量もスピードも大幅に上げることが可能になります。
このように、従来よりも多くの情報を早く、正確に伝えられることができるので、商談やプレゼンテーションなどの業務をより効率的に行えるようになります。
画像をもとに動画を作成
soraの活用法として、画像を基に動画を作成する機能を応用することがあげられます。この機能は主に防災や防犯などで活用することが期待できます。
例えば防災においては、過去に起こった地震や火山の噴火、建物の崩壊の場面を表した写真を動画にすることで、被害の状況や災害の大きさなどを、より正確に把握出来ます。
防犯においては、指名手配犯の顔写真を基に、喋った時の顔のしぐさや表情の動きを再現することによって、より正確に人相の情報を伝達させ、検挙率のアップに繋げられる可能性が高くなります。
動きがあるのとないのとでは、人が抱く印象はかなり異なってくるので、画像を基に動画を生成することで今までとは違う一面が見えてくる可能性が高いです。
アニメーションやプロモーション動画
動画という言葉で多くの人が連想するのは、アニメーションやYouTubeなどで流れるプロモーション動画だと思われますが、soraについてもこれらの領域で活用することが可能になります。
プロモーションの短い動画でさえ、従来の場合ですとアニメーターやプログラマーが丁寧にイラストやテロップを作って編集・作成していました。
しかし、soraを使用することによって、場面の切り替えの画像やイラストとテキストに起こした指示文さえあれば、プロモーション動画を簡単に作成できるようになりました。
このような活用をすることで、宣伝やプロモーションにかけていた費用や労力を大幅に減らすことができます。
シミュレーション動画の作成
soraのシミュレーション動画の機能を活用することによって、教育や学術研究の効率を上げることができます。
建造物などを写真にとってsoraにアップすれば、それらが何もない状態から出来上がる過程を視覚的に確認できるため、建築などの知識の取得効率を大幅に上げることができます。
またそれだけでなく、ピラミッドやナスカの地上絵など未だ謎に包まれている構造物について、それらが出来上がる過程を視覚的に確認することで、謎を解き明かすヒントが得られる可能性も出てきます。
著作権の問題などもあるため、何らかの枠組みができ、いくつかの動画は規制に引っかかる可能性がありますが、いずれにせよ業務の効率は飛躍的に上がります。
生成AI soraのまとめ
ここまで書いたように、soraにはまだまだ問題点も多少あり、改善の余地があるとはいえ、革新的な技術が幾つも使用されている、画期的な生成AIサービスです。
前の章でも書いた通り、ビジネスにおいて幾つもの有効な活用方法があるため、自社のビジネスの舵取りを行う経営者や管理職であれば知っておかなければならない技術と言っても良いでしょう。
とはいえ、実際に利用する前に、soraの利用法や自社での活用方法についてアドバイスを受けたり相談をしたいと思った人も多いと思います。そのような人は株式会社Jiteraに相談することをお勧めします。
株式会社JiteraはビジネスとITの双方の知識が豊富であるため、これらを上手く融合させてビジネスを進化させることに長けています。
従って、soraを始めとした生成AIについても、有意義なアドバイスを送れる可能性が高いです。もし株式会社Jiteraに興味を持たれた場合は、こちらのリンクをクリックすることをお勧めします。