OpenAI Sora 驚豔世人!但它還有哪兩大勁敵?

未來文字生影片 AI 會讓 Sora 一統江湖?未必,還有兩個同樣大咖級的競爭者站在面前。

從 ChatGPT 面世以來,各種生成式 AI 的發展也日新月異,不論是語音生成、圖片生成、音樂生成,甚至是影片生成等各種 AI 應用也不斷推出,許多文創與科技從業朋友也都在感慨,隨著這些生成式 AI 的技術不斷成熟,商用價值越來越大,很多工作機會可能真的會被取代。

其中,文字生成影片技術是人工智慧影片製作領域的一個重要研究方向。傳統的影片製作過程需要大量的時間和人力,而文字生成影片技術可以將這一過程大大簡化。

2024 年 2 月,OpenAI 推出了一款名為 Sora 的文字生成影片模型。該模型可以根據用戶輸入的文字描述生成逼真的影片,並且能夠控制影片的細節,例如人物、場景、動作、表情等。Sora 模型推出標誌著人工智慧技術在影片製作領域的重大突破,具有廣泛的潛在應用。

Sora 模型是 OpenAI 在 DALL-E 2 模型基礎上發展而來的。DALL-E 2 模型可以根據用戶輸入的文字描述生成圖片,而 Sora 模型還整合了 ChatGPT 使用的 Transformer 技術,結合 Diffusion 技術,在平面圖片的基礎上增加了空間與時間的概念,能使生成的動態物件在不同時間點都能具備高度一致性,達成專業攝影的效果。

既然 Sora 效果這麼驚人,那麼未來文字生影片應用可能會讓 Sora 一統江湖?其實這也言之過早。

Google 早 Sora 一步推出類似技術概念文生影片應用

Sora 有兩個競爭者,一個是 Google 的 Lumiere,Lumiere 與 Sora 同樣都是基於 Transformer+diffusion 的混合架構,透過對空間與時間的一致性運算,能夠做到前後一致,視覺上符合基本物理原則的影片生成工作,不過 Lumiere 目前只能生成五秒的短影片,且雖然 Google 稍早於 OpenAI 提出,但因為 Sora 的效果太驚人,聲量徹底掩蓋了 Lumiere。從展示效果上也可以看出,Google 目前並沒有投入太多資源在這個計畫中,可能是都卡在 Gemini 的訓練工作上了。

那之後 Google 的 Lumiere 有機會威脅到 OpenAI/Sora 嗎?是,首先,Google 的 Gemoni Pro 1.5 可以做到 100 萬個 token 的連續上下文判讀能力,比 GPT4 PRO 多了將近 8 倍,而且上下文之間的記憶與尋找能力正確性極高。

一般而言 token 數量雖然理論上越多越好,但還是要看模型的判讀能力,所以只會給一個合適的區間,不然給了太多 token,模型本身的幻覺又控制不了,那麼給出的結果也不可用。就好比 Claude2.1 的 20 萬個 token 在實際應用上效果就不是很出色,淪為噱頭。

如果 Google 能把他們在 Transformer 模型上的超大 token 數量掌控能力轉移到 Lumiere 上,對長影片的生成時間以及影片內容的時、空間前後一致性理論上都會有很大的幫助,未來要追上 Sora 可能對 Google 而言並不是太困難。

特斯拉早就使用類似技術在訓練自動駕駛

Sora 的第二個潛在競爭者就是特斯拉,目前特斯拉已經推出一個大語言模型 GROK,雖然聰明程度不如 GPT4,但與 X 平台的配合度相當好,給出的新聞分析與建議也相當可靠。

那麼特斯拉的 AI 影片生成技術在哪?馬斯克看到 Sora 這麼火爆,也不甘寂寞的跳出來表示,特斯拉早在一年前就已經開始利用機器生成準確還原真實世界的虛擬場景,並用於訓練自動駕駛。

眾所周知,特斯拉的自動駕駛是透過攝影機捕捉道路上的各種物件,判斷各物件的空間與時間動態,最後形成駕駛的決策。而 Sora 與其他文字生成影片的模型相較最大的不同,就是影片物件在時間與空間上的一致性。

因為安全考量,這些用於判斷路況的機器生成視覺內容非常重視物件的一致性,畢竟自動駕駛走在路上不會因為一個人暫時被車輛擋住就認定這個人不存在,系統必須要能夠根據行人的前進軌跡以及車輛的交互判斷擋住視線的車輛經過之後,行人或其他被遮蔽的車輛、物體可能會在哪個相對空間位置,進而判斷行車路線或行為需不需要改變。

那特斯拉目前的 AI 影像產生技術能夠幹掉 Sora 嗎?筆者認為街道場景可以,但人物、影片轉場或者其他物件、特效轉換能力上應該不行,畢竟特斯拉生成場景目的是要為了訓練駕駛系統,必須盡量符合真實,還沒有想到往電影工業(需要有大量人物特寫、不同風格角色生成能力)這方面去。另一方面,特斯拉也沒有透露是採用何種方式產生虛擬世界,但不大可能是文生影片的形式。

但就特斯拉的技術底層來看,應該有機會和 OpenAI/Sora 一較高下。如果馬斯克有意往這方面發展,應用潛力應該也是十分可觀。