
出口成章已是過去式,出口成「影片」才是現在式?
最近幾天,sora的熱度只增不減。 Sora是美國人工智慧團隊OpenAI發布的首個文字生成影片大模型。據了解,Sora的文本生成影片不僅在長度上取得了突破,長達到60秒,而且品質穩定,能夠模擬物理世界和數位世界的人物、動物和環境。
Sora堪稱驚豔的視頻生成能力,“技驚四座”,並很快引起了同為AI科技圈特斯拉CEO埃隆·馬斯克的注意。近日,馬斯克更是在推特上直言:“特斯拉擁有世界上最好的現實世界模擬和視頻生成能力!”
Sora與馬斯克兩大神仙打架,誰的「錄像生成術」更勝一籌?
01 Sora與馬斯克,本是同根生?
Sora與馬斯克,一直關係良多。
一方面,馬斯克原本是Sora背後的公司OpenAI的共同創辦人,只不過後來被踢出了董事會。據了解,馬斯克在OpenAI轉變為獲利公司後,曾多次在公開場合批評和指責OpenAI開始逐利、失去初心。
另一方面,馬斯克探索的視訊生成技術方向以及背後的邏輯與Sora十分相似。
其實,「文生視訊大模型」並不是一條全新的賽道,早在sora之前,市面上的頭部大模型就已經在探索影片生成技術了。根據相關媒體報道,在OpenAI登場之前,頭部大模型研發商幾乎都擁有自己的文生影片大模型。例如,Google的Lumiere以及Stability AI的SVD(Stable Video Diffusion),甚至已經誕生了垂直於多媒體內容創作大模型的獨角獸,例如視頻生成大模型Gen-2的開發商Runway,在2023年6月底完成Google、Nvidia、Salesforce參與的C輪融資後,估值超過15億美元。
而後來者Sora之所以能夠引起轟動,更多的在於其在技術層面和邏輯層面的重大突破。
技術層面,據悉,Sora最令人震撼的技術突破莫過於視訊時長的巨大提升。 Sora能產生長達1分鐘的視頻,遠超市面上其他AI視頻模型。此前,Runway能夠生成4秒的視頻,用戶可以將其最多延長至16秒,這已經是AI生成視頻在2023年所能達到的最長時長紀錄:Stable Video能提供4秒的視頻,Pika則提供3秒的影片。
邏輯層面,Sora展現了對物理世界部分規律的理解,解決了過去文生視訊模型的一大痛點。有專家分析指出,Sora帶有「世界模型」的特質,讓其在逼真度上更勝一籌。
而特斯拉的世界模型和Sora之間的最大相似點,也是邏輯層面。據悉,二者的技術底層邏輯都是透過視覺讓AI能夠理解甚至模擬真實的物理世界。
去年7月,特斯拉自動駕駛軟體總監Ashok Elluswamy在CVPR2023的演講中提到,特斯拉正在為其人工智慧技術建立一個基礎的世界模型(General World Model)。
同時,根據馬斯克介紹,特斯拉的視訊生成技術是基於其模擬現實技術而開發的。透過這種技術,特斯拉能夠建構一個動態生成的世界,這個世界並不是簡單的影像拼接或動畫模擬,而是基於真實世界的物理規則和資料來產生的。這意味著,特斯拉的視訊生成技術不僅能夠呈現逼真的視覺效果,更重要的是它能夠預測並模擬出極其精準的物理場景。
不過,二者的底層邏輯也存在差異。有業內人士分析指出,特斯拉目前的視頻生成技術邏輯,是基於過去的視頻,給出車輛行動提示,甚至不給提示,該模型可以預測不同的未來情況,以及生成視頻。
也就是說,特斯拉目前的視訊生成技術是基於過去的視訊進行動態生成的,而不是基於文字的輸入。對此,有業內人士分析表示,這或許意味著特斯拉的視訊生成技術可能更依賴數據的品質和數量,而不是模型的複雜度和創造力。
02 晚了一步的馬斯克,相煎何太急?
在Sora出現在公眾視野之前,馬斯克的特斯拉早在一年前就已經擁有了類似的技術。
馬斯克表示:「特斯拉在大約一年前就能以精確的物理生成真實世界的影片。只不過,由於訓練資料來自汽車,產生的影片並不有趣。這些影片看起來像特斯拉的普通視頻,實際上是通過動態生成的。”
只不過,由於發展方向不同,馬斯克這次似乎失去了技術公佈的「先機」。目前特斯拉的影片生成能力主要運用在了探索自動駕駛。而OpenAI的Sora則一直將重心放在生成影片上。方向不同,重心也就不同。因此,相較於OpenAI先放出Sora為世界帶來一點震撼的方式,晚了一步的馬斯克也情有可原。
也正是在自動駕駛上的深耕,讓特斯拉的視訊生成技術有希望與如今風頭正盛的Sora一較高下。
第一,特斯拉FSD的成功取決於對大量真實世界數據的處理和學習能力,這與OpenAI探索AGI的途徑有共通之處。兩者都需要大量的數據、高效的演算法和強大的運算能力。所以,有業內人士猜測,如果OpenAI能夠在AGI領域取得突破,那麼特斯拉在FSD上的成功也顯得更可行。
第二,由於特斯拉FSD專注於自動駕駛這一特定的應用場景,技術難度和複雜性可能低於開發能夠執行廣泛任務的通用人工智慧系統。同時,特斯拉擁有大量的實際駕駛數據,這為FSD的訓練提供了豐富資源。這也是不少業內人士猜測其技術突破和實現自動駕駛的時間可能比OpenAI實現通用人工智慧要早的重要原因。
不過,相較於Sora,特斯拉的影片產生能力仍存在限制。
算力是限制特斯拉的主要因素。據了解,影片生成涉及大量的視覺資訊處理,所需計算量遠超過文字生成。模型可能需要在數以億計的參數上進行訓練,消耗龐大的GPU算力資源。此外,文生視訊模型需要結合音訊、文字等多個模態訊息,這需要模型能夠有效融合不同類型的輸入訊號,並輸出對應的跨模態內容,無疑將大幅增加模型設計和訓練的難度。
而在對一則討論OpenAI Sora和FSD的影片下,馬斯克也回覆到:「我們在FSD的訓練運算能力上一直比較緊張,因此沒有使用其他影片進行訓練,但這是肯定可以做到的。我們計劃在今年晚些時候,當有一些空餘能力時進行這項工作。”
同時,自動駕駛儀工程的負責人Ashok也直言,公司目前的視頻生成模型也還只是個“半成品”,關鍵是它可以提供一個神經網絡模擬器,推演出不同的未來結果,跟踪道路中所有移動的物體。
可見,Sora的發布的確讓馬斯克產生了些許危機感。
好在,Sora並非完美無瑕。在Sora公開的Demo影片中,有不少生成式AI脫離現實邏輯的漏洞。例如,隨著時間推移,有的人物、動物或物品會消失、變形或生出分身;或是出現一些違反物理常識的畫面,例如穿過籃框的籃球、懸浮移動的椅子。
OpenAI在技術報告中也坦誠地發表了Sora的不成熟之處。據悉,OpenAI表示,Sora可能難以準確模擬複雜場景的物理原理,可能無法理解因果關係,可能混淆提示的空間細節,可能難以精確描述隨著時間推移發生的事件,如遵循特定的相機軌跡等。
多年從事電腦視覺研究的上海交通大學人工智慧研究院副教授王韞博也認為:「Sora對真實世界的模擬還有很大提升空間,就目前的展示內容來看,並不意味著它已經'讀懂了'物理規律。”
英偉達高級科學家Jim Fan也指出,目前Sora對湧現物理的理解是脆弱的,遠非完美,仍會產生嚴重、不符合常識的幻覺,還不能很好地掌握物體間的相互作用。
總之,留給馬斯克追趕的時間似乎還很多。而Sora最後又能否成為文字生成影片領域的“真老大”,現在定論,似乎也為時過早。
* 本文內容僅代表作者個人觀點,讀者不應以本文作為任何投資依據。在做出任何投資決定之前,您應該尋求獨立財務顧問的建議,以確保您了解風險。差價合約(CFD)是槓桿性產品,有可能導致您損失全部資金。這些產品並不適合所有人,請謹慎投資。查閱詳情