iPhone または Mac で Sora をいつどのように使用できるか: これは OpenAI の新しいビデオ人工知能です

先週は、人工知能に関する今年の発表の 1 つで終わりました。 ChatGPTの作成者である OpenAI はSora を導入しました。 AIによる動画の完全作成から既存動画の編集・修正まで、動画に特化した新しい機能モデルです。しかもすべてテキストプロンプトを通じて行われます。

これは、すでに画像用に開発されている AI に似ていますが、より完全なものです。例で示されているリアリズムは印象的であるため、この新しい AI について多くの疑問が生じています。その多くは答えを持っていませんが、答えを持っている人もたくさんいます。

ソラと彼の Mac、iPhone、iPad への登場について私たちが知っていること (そして知らないこと) のすべて

まず、Sora は、ChatGPT や他の多くの生成人工知能モデルの場合と同様にマルチプラットフォームモデルになるため、Apple エコシステムへの導入が確実であると言うことから始める価値があります。しかし、それらの運用目的と他の運用目的の両方において、まだいくつかの疑問があります。

ソラはいつ到着しますか？

これは 100 万ドルかかる問題であり、私たちが解決したいと願っていますが、正式な答えはありません。 OpenAI がすでに示していることは、それがすでに先進的なシステムであることを示していますが、まだ日付が発表されていないということは、解決すべき点がまだあることを示唆しています。

実際、OpenAI 自体は、ユーザーにとって安全なシステムであることを望んでおり、現在その開発に取り組んでいることを保証しています。準備が整い次第発売されますが、日付は指定されていないと主張しています。使用されている仮説は、年末までに発売されるというものですが、12月31日か明日になる可能性も十分にあります（ネタバレ：明日ではありません）。

ソラって何ができるの？

Sora をビデオを生成できる AI と定義することは真実を語っていますが、すべての真実を語っているわけではありません。持つ機能は多岐にわたり、非常に強力です。

ビデオは完全に AI で作成されており、簡単な指示を与えてソラの自由な選択で完成させるか、1 つまたは複数の特定のシーンの作成を詳細にリクエストできるプロンプトが導入されています。
既存のビデオを変更して、たとえば、通常の道路を走行している車の場合、Sora はその車がジャングルの真ん中を走行しているように見せることができます。
既存のビデオ形式を変更する場合と完全に作成する場合の両方に異なるビデオ形式。 1:1 で縦、横、正方形の両方のフォーマットをサポートします。
Photoshop などの一部のアプリケーションが画像に対してすでに行っているのと同じような方法で、ビデオの環境を考案します。たとえば、森の横長のビデオを想像してみましょう。Sora を使用すると、元の部分に表示されている内容に従って、その側面が AI で生成された要素で覆われる横長の形式に変更できます。
2 つのビデオの結合。OpenAI が提供する例でよりよく理解できるようになります。蝶が飛んでいるビデオと、ドローンが都市上空を飛んでいるビデオが表示されます。両方のビデオを組み合わせると、その蝶が街の上空を飛んでいるという結果になります。
静止画をシステムにアップロードし、Sora にビデオに変換するよう依頼することで、静止写真に命を吹き込みます。たとえば、犬の単純で普通の写真が、その写真を残してビーチを歩いている犬になる可能性があります。
圧縮環境ではなく、単純なビデオ生成が必要です。つまり、街を歩く人を映すビデオをリクエストした場合、Sora は空間を解釈して、背景を歩く人、道路上の車両、建物などを追加する方法を知っています。

もうSoraを使用できる人はいますか？

はい、いいえ。 OpenAI 自身の従業員 (全員ではない) を超えて、同社は特定のユーザーに限定的なテストを公開しました。ご想像のとおり、彼らはランダムなユーザーではなく、むしろプロのデザイナーや映画製作者でさえあり、OpenAI は彼らからフィードバックを受け取り、モデルを世界的に公開する前に改良を続けることを望んでいます。

ソラはどう処刑されるのか？

Sora のような AI を実行するには、最大 3 つの方法があります。ローカル。これは、デバイス上に特定の強力なハードウェアを搭載することに限定することを意味します。外部サーバー上では、提供する会社に純粋に依存するため、多くのデバイスで有効になり、最終的には外部サーバー上のプロセスの一部をローカルで実行する必要がある混合モデルになります。

Sora は OpenAI 独自のサーバー上で実行されるため、非常に幅広いデバイス上で実行できることが保証されます。はい、前に述べたように、iPhone、iPad、Mac でも使用できます。実際、最新のモデルである必要さえありません。これは ChatGPT ですでに起こっていることと同じです。

ソラはどこでダウンロードできますか?

未確認ですが、ChatGPT 用のアプリがあるのと同じように、Sora 用のアプリも起動される可能性があります。

これも答えのない質問です。少なくとも完全にはそうではありません。 OpenAIでは、同社が入手可能な他のモデルと同様にカタログに追加されることを確認したが、独立したアプリが搭載されるかどうか、またどのシステム上で使用されるかについては追加されなかった。

うまくいけば、Web ブラウザーを通じてオンラインで利用できるようになります。ただし、他のモデルと同様に、最終的に iOS、Android、macOS、Windows 用のアプリケーションが提供されるかどうかは不明です。

ソラにはどのような制限がありますか?

この AI を徹底的にテストできていないのに、バグのリストを提示するのは少なくとも危険です。 OpenAIが公表しているのは、長さ60秒までの動画になるということ。少なくともそれが現在彼らが持っているものであり、それが将来拡張されるかどうかは誰にもわかりません。今のところ、その分が限界です。

さらに、複雑なシーンでは特定の精度の問題が発生する可能性があり、ソラが因果関係を理解できない可能性があるともコメントしています。

Sora を使用するには料金を支払う必要がありますか?

日付に関する質問が 100 万ドルの問題だとすると、これは 90 万ドル (あるいは 100 万ドル) の問題です。答えはありませんが、ChatGPT が決定的な手がかりになる可能性があります。 OpenAI はGPT-3.5でチャットボットを無料で提供していますが、最も高度なバージョンはChatGPT Plusと呼ばれ、 GPT-4に基づいており有料です。

したがって、 Sora にはいくつかの可能性があります。一方で、それは誰にとっても制限なく完全に無料であるべきですが、確認されていませんが、少なくともその可能性は低いように思えます。もう 1 つのオプションは、完全に有料であるというもので、上記よりも可能性が高いものですが、選択されることはないようです。確認がない場合に最もお金がかかるオプションは、誰でも利用できる無料オプションと、定期的な支払いが必要なさらに野心的なモデル (Sora Plus?) を備えた混合モデルです。

Sora はオーディオビジュアル業界にどのような影響を与えるでしょうか?

Sora はビデオ編集者に利益をもたらしますか、それとも害を及ぼしますか? (DALL-E3で生成した画像)

まあ、それを知るのは時期尚早です。 ChatGPT が私たちのルーチンをより良い方向に変えることができることをすでに見たのであれば、Sora もそうしてくれることを願っています。ただし、プラスの結果とマイナスの結果の両方が予測されます。良い面としては、これがビデオコンテンツクリエーターにとって、さらに進化すれば大規模なオーディオビジュアルプロデューサーにとっても非常に便利なツールになることがわかりました。

しかし、職を失うという有名な恐怖がプロの編集者にとって現実になるかどうかはまだ分からない。また、 AI で生成された静止画像ですでに起こっているような、操作されたビデオが出現してフェイクニュースになる一定のリスクもあります。

Apple の将来の AI が Sora に対してどこに立つのかを見るのも、今後数か月のうちに興味深いものになるだろう。

いずれにせよ、すべての疑問に確実に答えることはあまりできていないようです。今のところ、Sora はオーディオビジュアル分野の革命に大きな期待を抱いています。彼の将来は謎であり、彼が大会に向けて何を準備するのかも誰にも分からない。これ以上は言わずに、ティム・クック氏自身が、Apple が近々 Apple の人工知能に関連して何かを発表する予定であることを認めた。