?

Sora到底是何方神圣?

2024-03-05 03:43陳冰
新民周刊 2024年8期
關鍵詞:物理世界模型

陳冰

龍年伊始,Sora橫空出世,震驚眾人。這個自稱是“世界模擬器”的新工具,作為OpenAI發布的首個AI文(圖)生視頻模型,帶給人們的感受真的只能用炸裂來形容——根據輸入的文字提示,就能生成效果逼真的60秒視頻,而且是可以一鏡到底的那種。

僅僅在一年前,人們還在嘲笑AI生成的威爾·史密斯(Will Smith)吃意大利面的視頻是人工智障。在那段視頻里,威爾·史密斯用一種詭異、尷尬的姿勢將意大利面鏟進一張抽搐、不似人類的嘴里。

可是現在,人們對著Sora輸入以下文字:

一位時尚的女士穿著黑色皮夾克、長紅裙和黑色靴子,手拿黑色手袋,在東京一條燈光溫暖、霓虹燈閃爍、帶有動感城市標志的街道上自信而隨意地行走。她戴著太陽鏡,涂著紅色口紅。街道潮濕而有反光效果,色彩繽紛的燈光仿佛在地面上創造了鏡面效果。許多行人在街上來往。

在這段刷屏的視頻中,提示詞中的全部細節都得到了體現,而且無論是人物臉上的雀斑,還是水中的倒影都顯得極其逼真。以前人們會懷疑,這是假的吧?現在人們會驚嘆,這是實拍的吧?不像是AI生成。這種從文本到圖像再到視頻的進階之路實在走得太快,以至于一年之前大佬還在預言AGI(通用人工智能)來臨之前,還有很長的路要走,現在紛紛開始改口稱:AIG的實現將大大提速。360集團創始人、董事長周鴻祎近日就宣稱,AIG將在一到兩年內實現。

Sora背后的技術架構是怎樣的,Sora到底有沒有理解物理世界的能力,它的出現是否意味著AGI將在一年內實現?以ChatGPT、Sora為代表的AI技術將如何顛覆人類社會既有的種種規則?我們又將如何應對?

關于Sora,我們有太多的未解之問。

Sora不再是一個創意玩具,而是一個“數據驅動的物理引擎”,一個可學習的模擬器或“世界模型”,可以對真實或虛擬世界進行模擬。

過去一年多,以ChatGPT為代表的大模型現身江湖,引發科技界一片沸騰。2024年中國農歷新年還沒過完,AI界又發生了三件大事:谷歌推出Gemini新版本,支持超過100萬個token的輸入窗口;英偉達推出ChatWithRTX,誓把每個人電腦都變成一個私有大模型;當然,最震撼的還是Sora華麗登場。

近年來,AI 生成文字、生成圖片的技術飛速發展。相比之下,AI生成視頻領域雖有Runway、Pika 、Meta、谷歌等多個明星公司入局,但因技術難度更大,發展仍處于早期。

2023年12月,谷歌團隊發布視頻生成模型VideoPoet,一次能生成10秒超長、連貫大動作的視頻,超過其他智能生成3~4秒的模型,已足以讓業內振奮。誰能想到,2個月不到,Sora已經可以一次生成60秒鐘的連貫視頻,并且包含高度細致的背景、復雜的多角度鏡頭,以及富有情感的多個角色。

OpenAI首席執行官奧特曼在X平臺上發布了一系列視頻,精美的場景、逼真的人物細節讓用戶驚嘆不已。而這些視頻全都是通過OpenAI 2月15日發布的最新視頻生成模型Sora制作的,人們將其描述為“絕無僅有”和“游戲規則改變者”。

1分鐘的視頻并不長,但對于AI文字生成視頻卻是一個巨大的飛躍。在此之前,文字生成視頻的時長只有短短幾秒,一大原因就在于,AI不知道接下來要發生什么,因而不知道該生成怎樣的內容。

Sora發布的黑衣紅裙女視頻很好地保持了人物的連貫性,讓觀眾也明顯感受到其幾乎可以“以假亂真”。當然,如果仔細觀察,可以發現紅裙女視頻中人物的腳步在某幾個幀會出現不自然的扭曲,視頻中的背景廣告牌雖然酷似日文,但由于目前AI還無法直接在視頻中“認識”文字,其只能生成似是而非的“日文”。在另一則中國龍年舞龍的視頻中,出現的也并非真正的漢字“龍”,只是像漢字的圖形而已。這些都是AI生成視頻的特點之一。不過瑕不掩瑜,Sora已經用事實吊打了同類型的文生視頻應用。它不僅更加符合邏輯,還在一定程度上“展現”了對現實世界的理解能力。

英偉達人工智能研究院首席研究科學家Jim Fan在社交平臺感嘆,Sora不再是一個創意玩具,而是一個“數據驅動的物理引擎”,一個可學習的模擬器或“世界模型”,可以對真實或虛擬世界進行模擬。

那么,Sora具體厲害在哪?

如果說,之前的AI“文生視頻”工具是“模擬現實”,Sora則是“構建現實”。兩者的區別在于,前者是對現實的模仿,難以捕捉現實世界的物理規則、動態變化。后者,則是在虛擬世界里,構建另外一種現實。其學習的不僅是像素與畫面,還有現實世界的“物理規律”。

Jim Fan對咖啡杯里的海盜船這則視頻進行了拆解分析。首先,在這個視頻中模擬器生成了兩只帶不同裝飾的精美海盜船,這需要Sora在其潛在空間中解決文本到3D的隱含問題;第二,這兩艘船需要在航行和避開對方路徑時始終保持動畫效果;第三,從流體動力學上來看,咖啡的流動以及船只周圍形成的泡沫都非常自然。流體模擬是計算機圖形學的一個完整子領域,傳統上需要非常復雜的算法和方程;第四,在逼真度上,整體的效果看起來幾乎就像使用光線跟蹤渲染一樣;第五,模擬器考慮到與海洋相比,杯子的體積較小,因此采用了傾斜移位攝影技術,營造出一種微景觀的感覺;第六,雖然提示詞中場景的語義并不存在于現實世界之中,但Sora依然實現了我們所期望的正確物理規則。

咖啡杯里的海盜船視頻,展現了人類所期望的正確物理規則。

這就是Sora的獨到之處,理解運動中的物理世界。復旦大學教授、上海市數據科學重點實驗室主任肖仰華指出,因為世界本質上是非常復雜的,非線性的。我們傳統的模型只能建一些線性的簡單關系。像流體力學之類非常復雜的現象,用傳統的模型非常難建模。但是今天我們看到基于Transformer深度神經網絡的大模型架構,Sora已經具備了對現實世界復雜現象非常逼真的建模能力,這是Sora帶來的一個新高度。

在Sora推出后不久,OpenAI發布了這款新工具的技術報告。報告指出Sora的一個強大的能力是它的語言理解能力。OpenAI利用Dall-E模型的re-captioning(重述要點)技術,生成視覺訓練數據的描述性字幕,不僅能提高文本的準確性,還能提升視頻的整體質量。此外,與DALL·E 3類似,OpenAI還利用GPT技術將簡短的用戶提示轉換為更長的詳細轉譯,并將其發送到視頻模型。這使Sora能夠精確地按照用戶提示生成高質量的視頻。

因為一篇張冠李戴的文章而被誤稱為Sora發明者之一的紐約大學計算機科學助理教授謝賽寧,實際上是機器學習領域知名學者,也是擴散模型(Diffusion Transformer,簡稱DiT)一篇重要論文的主要作者之一。他分析Sora應該也是一個建立在DiT架構上的擴散模型,同時結合了GPT技術的混合模型,從而在視覺領域實現重大突破?!皩τ赟ora這樣的大規模系統工程而言,神經網絡架構只是其中很小一部分。大部分的功勞要歸功于OpenAI的人才儲備,高質量數據規模以及巨大的算力?!?/p>

Sora視頻完整展現了小怪獸伸出爪子擋住紅色蠟燭跳動的火焰,它的影子隨之偏移的物理過程。

簡而言之,60秒超長長度、單視頻多角度鏡頭和世界模型是Sora的三大關鍵詞。如果沒有大語言模型的加持,Sora是不可能迅速“進化”到今天這個地步的。

毫無疑問,Sora目前展現出來的“邏輯能力”看似非常強大,或者說它展現出來的視頻世界更符合人類觀念中的現實世界。

但Sora真的能夠理解世界嗎?隨著一系列匪夷所思的Sora視頻出現,業界有了截然不同的判斷。

比如在一個樣片中,提示詞為“考古學家在沙漠中發現了一把普通的塑料椅子,正小心翼翼地挖掘和除塵”,Sora生成的視頻出現了椅子變形、自動行走等詭異的場景。

另一個玻璃杯碎裂的視頻中,玻璃杯碎裂的方式也十分詭異——它被抬到半空中時,桌子上就忽然出現了一攤平整的紅色玻璃,隨后玻璃杯被摔到桌子上,和這攤玻璃融為一體。

很顯然,Sora混淆了玻璃破碎和液體溢出的順序,也并不能推理時間和因果關系。這不正說明,Sora目前還無法理解全部的物理世界?

再比如,Sora團隊Aditya Ramesh自豪地放出一個螞蟻巢穴內爬行的視頻,粗看似乎很驚艷,仔細一看,卻令人啼笑皆非——螞蟻怎么只有四條腿?!

還有一個老奶奶慶祝生日的視頻,每一幀都異常逼真,但是當老奶奶吹了生日蠟燭的時候,蠟燭的火苗竟然紋絲不動。最離譜的還是一個男人在跑步機上煞有介事地反向跑步。如此“南轅北轍的跑步”視頻,讓人看到了Sora“智障”的一面,這些翻車視頻暫時讓人們松了一口氣,“輸入一部小說,產生一部電影”的時代還不會馬上到來。

美國紐約州立大學石溪分校計算機系顧險峰教授撰文指出,觀察“幽靈椅子”視頻,整個椅子如鬼魅般懸空,這與日常經驗相悖。再如“四足螞蟻”的視頻,螞蟻的動作栩栩如生,宛如行云流水。局部上非常流暢自然,令人不禁聯想或許在某個星球上存在這種四足螞蟻。但是整體上,地球的自然界并沒有四足螞蟻。這種“局部合理,整體荒謬”的生成視頻,意味著Transformer學會了Token間局部的連接概率,但是缺乏時空上下文的大范圍整體觀念。

黃仁勛2016年向OpenAI捐出全球第一臺AI超算DGX-1時,馬斯克還是OpenAI的聯合創始人。

AI科學家馬庫斯(Gary Marcus)則發文表示,“我們需要認識到,并非Sora生成的所有視頻都來自其訓練集。Sora也并不總是遵循物理學、生物學和文化的規律。我最近討論的7*7棋盤、4條腿的螞蟻,和碎裂的杯子一樣,都證明了Sora是一個魯莽的野獸,而非迭代的、基于定律的物理引擎。其實,Sora只是泛化了像素的模式,而并非世界上物體的模式”。

圖靈獎得主、Meta公司首席科學家、AI團隊負責人楊立昆(Yann LeCun)說,在他看來,僅僅根據提示詞生成逼真視頻并不能代表一個模型理解了物理世界,生成視頻的過程與基于世界模型的因果預測完全不同。他認為Sora并不能模擬物理世界,在社交平臺上發文稱 “這里存在‘巨大’的誤導”。

對此,英偉達高級研究科學家Jim Fan表示,我們可以從兩個角度來解釋這個問題:(1)可能是因為這個模型根本沒有掌握物理知識,它僅僅是在無序地拼湊圖像像素;(2)模型確實嘗試構建了一個內部的物理引擎,但這個引擎的表現還不盡如人意。就像是第一代虛幻引擎在處理流體動力學和物體變形等問題上,與V5相比有著明顯的不足。同樣地,V1的渲染效果也遠不如V5,并且缺乏物理上的準確性。

獵豹移動董事長兼CEO、獵戶星空董事長傅盛則認為Sora在某種意義上具備了對世界的理解?!暗绻阏f它把整個物理世界復刻了,我覺得這肯定不是真實的。我認為它對世界的理解還停留在比較初級的水平。就像一個五六歲的小孩,對世界的理解并不深,但畫圖方面是一個天才兒童。我認為這也是電腦特性決定的,計算機的能力和人類能力并不一樣,對我們來說很難的事情對它來說可能很簡單,畫畫對計算機來說就是一堆的像素點打出來,這個色階正好符合你的審美。所以我覺得僅以視頻本身去驚嘆Sora對物理世界的理解到了一個什么高度,這點我是絕對不認同的,‘AGI因此由十年變一年’,這個我也不認同?!?/p>

傅盛說,其實語言對世界的認知是遠超視頻的,雖然視頻看起來更讓我們有直覺的沖動,但語言的抽象和邏輯是最難理解的。一旦語言對世界的描述建立以后,視頻的這種抽象和描述相對來說是簡單的。OpenAI能走到今天與其說是技術積累的勝利,不如說是技術信仰的勝利;與其說是它有什么超牛的技術,還不如說它堅持在別人不相信的道路上勇敢前行。

其實即便到前年之前,OpenAI在硅谷都不是一個被看好的公司。但它自成立之初就相信一件事:讓機器讀大量的文字,它就能理解語言,甚至理解世界。在ChatGPT出現以前,所有人都不相信它可以實現,但它最后成功了。

Sora某種程度是ChatGPT的又一次翻版:它把視頻數據統一了,然后用大語言模型的方法理解視頻,最后“涌現”出了對物理世界的構建能力。他們在技術報告中指出,Sora的靈感來源于大語言模型的開發。他們利用互聯網的規模數據使得大語言模型獲得了通識知識的能力。而大語言模型的成功在一定程度上得益于文字編碼(Tokens)的使用,它統一了不同的文字形式,包括編碼、數學和不同的自然語言。Sora有了視覺數據塊(pathes),可以有效表達不同種類的視頻和圖像數據。

當然,Sora成功的背后還離不開另外一個男人——英偉達的聯合創始人黃仁勛。2月22日,英偉達市值一日暴漲2770億美元,相當于漲出一個阿里+京東+百度,創造了人類史上最大個股單日市值增幅。英偉達目前總市值已靠近2萬億美元邊緣(1.96萬億美元),超過英特爾AMD高通博通四大半導體巨頭之和。2012年,當英偉達的黃仁勛決定all in AI 的時候,沒人看好。但眼下,無論你是發力自動駕駛,布局元宇宙,還是研發AI大模型,都離不開英偉達的GPU(圖形處理器)。

2016年,英偉達推出了全球首個針對AI計算場景的P100芯片。在此基礎上,英偉達打造了全球第一臺AI超算DGX-1。出人意料地,黃仁勛將這款價值12.9萬美元的全球首臺AI超算無償捐給了舊金山某個非營利性機構。

捐贈儀式上,黃仁勛拿出記號筆在機箱上寫道:“為了計算和人類的未來,我捐出世界上第一臺DGX-1?!爆F在人們知道了,這家非營利性機構就是OpenAI。

8年前的一次捐贈,從某種程度上看,也是AI發展浪潮中的一個巨大隱喻:用人類的信仰創造出驚人的未來。Sora的重大突破并不一定代表技術上的重大升級,而是又一個“大力出奇跡”的時刻——相信這事能成,然后不計成本地投入巨大的算力和數據嘗試。技術信仰使得他們全力以赴,從而有了一個產品級的突破。從這個角度上講,Sora生成視頻的意義在于,繼語言模型突破之后,人類又迎來了視頻和物理世界虛擬生成的突破,人類完全可以用數據驅動的方法讓機器學習,從而產生出有可能遠遠超過人類對這個世界的認知方式,這或許是人類歷史的偉大轉折點!

近日,360創始人周鴻祎連發6段視頻和1篇長文,開直播向網友“推銷”Sora,“我成了布道者”,他隨之宣布了“四個相信”理論:“要有AI信仰;相信AI是工業革命級技術;相信人類已經在朝著AGI(通用人工智能),甚至朝著強人工智能在指數級發展;相信不懂AI會終將被淘汰?!?/p>

Sora生成的舞龍視頻非常逼真。

Sora是OpenAI發布的文生視頻模型,能夠根據用戶輸入的提示詞、文本指令或靜態圖像,生成長達一分鐘的視頻,其中既能實現多角度鏡頭的自然切換,還包含復雜的場景和生動的角色表情,且故事的邏輯性和連貫性極佳。

Sora的命名或來源于日語中的單詞“天空”。OpenAI團隊表示,選用該詞是因其讓人聯想到無限的創作潛力。

Sora具有三大突出亮點,首先是時長,Sora可生成長達一分鐘的視頻,且可以保持視頻主體與背景的高度流暢性與穩定性;其次是單視頻多角度,即在一段視頻中圍繞同一主體實現遠景、中景、近景、特寫等不同鏡頭的切換,且符合邏輯;此外還有理解真實世界的能力,Sora對于光影反射、運動方式、鏡頭移動等細節處理得十分優秀,極大地提升了真實感。

語言模型是計算自然語言每個句子概率的數學模型。當用戶向 AI 提問時,AI 會通過計算概率來確定其回答。當前的語言模型不僅僅是一個問題對應一個答案,實際上是一個問題對應多個可能的答案,并根據這些答案的概率進行排序,最終返回最有可能的答案。大語言模型擁有數以億計的參數,并在解決復雜任務時表現出令人驚嘆的能力。

Transformer模型是一種神經網絡,這種模型應用了一組不斷發展的數學技術,稱為注意力或自我注意力,以檢測甚至是系列中遙遠的數據元素相互影響和相互依賴的微妙方式。自注意力機制的創新,使得模型能夠在捕捉長距離依賴關系的同時實現并行計算,大大提高了模型的性能和效率。無論是在自然語言處理還是計算機視覺領域,都成為了一種不可或缺的重要工具。

涌現理論的主要奠基人約翰·霍蘭德(John Henry Holland)在《涌現:從混沌到秩序》一書中這樣描述“涌現”現象:“在復雜的自適應系統中,‘涌現’現象俯拾皆是:螞蟻社群、神經網絡、免疫系統、互聯網乃至世界經濟等。整體行為遠比構成它的部件復雜,可稱為‘涌現’?!?/p>

涌現在AI領域的表現為,當大模型的參數與數據量足夠大時,突然就“涌現”出了驚人的智能,即實現AI 的自我進化,能舉一反三,觸類旁通。

猜你喜歡
物理世界模型
只因是物理
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
處處留心皆物理
三腳插頭上的物理知識
我愛你和世界一樣大
3D打印中的模型分割與打包
彩世界
奇妙有趣的數世界
世界上所有的幸福都是自找的
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合