?

Sora:從眼見為實,到夢想成真

2024-04-08 13:13姜奇平
互聯網周刊 2024年5期
關鍵詞:算力原理物理

姜奇平

2024年2月15日,OpenAI正式發布的AI視頻生成模型Sora吸引了全球大眾與媒體的目光。屏幕上,一位時尚女士走過雨后的街頭,地面的積水倒映出街頭廣告的斑斕色彩,并隨鏡頭推近不時變幻。這不是真實的攝像,而是由Sora生成的一段以假亂真的視頻。OpenAI自己并不認為Sora只是視頻模型,而稱之為“世界模擬器”。Sora的問世,改變了世人“眼見為實”的定見,變成把人們心中所想用AI變成虛擬的現象。Sora是技術邁出的一大步和人類邁出的一小步。

Sora是一個由不同時長、分辨率和寬高比的視頻及圖像訓練而成的擴散模型,同時采用了Transformer架構,可以根據用戶的文本提示(prompt)創建一分鐘的高清視頻。該模型可以通過理解仿真物體在物理世界中的存在方式,為模型提供多幀的預測,深度模擬真實物理世界,能生成具有多個角色、包含特定運動的復雜場景。

Sora在一些專家和投資界看來,是技術發展的一大步。有專家認為這一數據驅動的物理引擎,堪比視頻生成領域的GPT-3。對于Sora即將引領的新技術潮流來說,OpenAI首席執行官山姆·奧特曼認為,人工智能有望在推理能力和可靠性、多模態、可定制化和個性化三個領域大幅提升。

但對于人類對智能的探索來說,Sora仍只是一小步。因為這更像是量變,而非質變。

首先,Sora是算力增強的結果,而非算法的飛躍。按照傳媒學原理,同面積的圖像與文字相比,信息量要大9倍,因為其中隱含了大量感性的非語言信息。這就是所謂“一幅圖勝過千言萬語”。如此看來,計算圖像要比計算語言需要成倍的算力。反過來說,算力增強,也必然會帶來圖像計算能力提高。據紐約大學助理教授謝賽寧推算,Sora可能有大約30億個參數。在現有算法下,算力突破帶來圖像處理能力提高,有其順理成章之處。事實上,天氣預報云圖預測,也需要大量算力,只是不如計算一段時尚女性的視頻更吸引眼球。

其次,算法還是已有技術的常規性、累積性的進步。Sora處理視頻數據,還是傳統物理范式下的還原法,通過分解最小粒子還原圖像。OpenAI把視頻和圖像分解為較小的數據單元Patches(補片),每個patches相當于GPT中的一個token(詞元);Sora在讓語言“理解”圖像上,還是采取標注技術(DALL·E 3),把對圖像的理解,簡化為對語言的理解,遵循用戶的文本指令生成視頻。

至于靜態圖像轉化成視頻,擴展現有視頻或補全缺失的幀,還是在已有技術基礎上發展起來的。Sora可能難以準確模擬復雜場景的物理原理,并且可能無法理解因果關系,可能難以精確描述隨著時間推移發生的事件,這些都有待更進一步的技術突破。

當然,即使是這樣的一小步,也會對人們的生活產生巨大的影響。誠如有專家所說:“在AI視頻構建的世界中,‘眼見為實行不通了,眼睛看到的東西或許無法作為判斷依據?!睂砣藗冊诰W上看到一個聲稱“真人真事”的夸張影像時,恐怕要先問一句,這不是合成的吧?好處也會有許多,例如,一個人不可能走遍天下,歷盡美景,這時只要把YouTube和TikTok上的景區視頻都當作語料訓練一遍,就可以親臨其境一樣置身其中。周鴻祎說:“Sora工作原理像人做夢?!痹谘垡姙閷嵤Ш?,說不定夢想成真倒會變為現實。

猜你喜歡
算力原理物理
這個第二不一般
衛星通信在算力網絡中的應用研究
中國電信董事長柯瑞文:算力成為數字經濟的主要生產力
只因是物理
基于SiteAI算力終端的交通態勢感知系統
了解咳嗽祛痰原理,有效維護健康
處處留心皆物理
平均場正倒向隨機控制系統的最大值原理
三腳插頭上的物理知識
化學反應原理全解讀
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合