?

Sora開啟文生視頻新世代？

2024-03-24 07:09楊智杰

中國新聞周刊 2024年7期

關鍵詞：王帥文字社交

楊智杰

Sora生成的視頻截圖。提示文字：“一位時尚女性走在東京的街道上，街道上到處是溫暖的霓虹燈和動畫城市標志……”

兩只金毛犬在山頂上錄制播客，會是一個怎樣的場景？

北京時間2月16日，網友在社交媒體上寫下對AI模型Sora的這一文字提示，OpenAI首席執行官山姆·奧特曼將其輸入Sora，生成了一個10秒的高清視頻，并將其發布在社交平臺。畫面中，兩只金毛犬頭戴耳機，面前立著兩個話筒，放松地蹲坐在山間一塊紅白相間的野餐布上。金毛犬的毛發光澤、周圍的山頂環境非常逼真，幾乎和電視紀錄片別無二致。

繼AI生成文字和圖片后，OpenAI正式涉足視頻生成領域。北京時間2月16日凌晨，OpenAI發布首個AI 文字生成視頻模型Sora，使用者只需用文字描述一個場景，Sora便可生成一個時長最高可達1分鐘的視頻。OpenAI僅在官網發布數十個Sora視頻，目前，該功能尚未向公眾開放，僅面向安全人員，還將向特定藝術家、設計師提供訪問權限。但Sora視頻對文字提示的超高還原，迅速引爆網絡。有網友感慨，“Sora要革影視行業的命”“它將把視頻內容帶入‘零基礎創作時代”。

英偉達的工程師王帥在Sora發布后驚嘆，這是“又一個ChatGPT 時刻”。他在接受《中國新聞周刊》采訪時提到，Sora顯著提高了AI文字生成視頻的能力上限，這無疑是業內共識。但Sora的產品和商業化路徑是什么，如何產生價值，目前業內仍有分歧?！凹夹g能力提高，并不意味著它能解決所有問題，幫好萊塢導演直接拍電影，不需要攝像，還遠沒有到那一步?！?h3>Sora效果為何遠超其他模型？

即使不關注大模型技術的人，也會注意到社交網絡上這一廣為流傳的59秒視頻：一位戴墨鏡、身穿紅裙皮衣、踩著皮靴的女人，漫步在東京街頭，鏡頭流暢地推到了她的臉部，你可以清晰地看到她臉上的雀斑和皮膚紋理。這個一鏡到底的視頻不需要人來拍攝和剪輯，只要把一段描述輸入Sora后即可由AI直接生成。

1分鐘的視頻并不長，但對于AI文字生成視頻可以算是巨大飛躍。過去一年多來，ChatGPT、Midjourney等現象級爆款應用橫空出世，AI 生成文字、生成圖片技術的飛速發展讓人興奮，相比之下，AI生成視頻領域雖有Runway、Pika 、Meta、谷歌等多個明星公司入局，但因技術難度更大，發展仍處于早期。2023年12月，谷歌團隊發布視頻生成模型VideoPoet，一次能生成10秒超長、連貫大動作的視頻，超過其他智能生成3～4秒的模型，已足以讓業內振奮。

清華大學智能產業研究院（AIR）首席研究員聶再清向《中國新聞周刊》解釋，在此之前，文字生成視頻的時長短，一大原因在于，AI不知道接下來要發生什么，因而不知道該生成怎樣的內容。

Sora的視頻更長，觀眾也明顯感受到其更加符合邏輯，因為它一定程度上“展現”了對現實世界的理解能力。在OpenAI公開發布的一個視頻中，復古SUV在陡峭的山路上行駛，車身自然顛簸，輪胎揚起灰塵。OpenAI將這一能力稱為“世界模型的雛形”。英偉達人工智能研究院首席研究科學家Jim Fan也在社交平臺感嘆，Sora并不只是創意玩具，而是一個數據驅動的物理引擎，可以對真實或虛擬世界進行模擬。

聶再清介紹說，世界模型可以簡單理解為，AI對真實世界建模，能還原對現實世界中人和物的理解，“比如拿一個紙杯，AI‘知道很輕，如果這個杯子是鐵做的，它會很重，如果一個人開車逆行，其他車輛會嚇得減速或避讓”。

Sora能做到準確理解文字含義，并呈現逼真的畫面，在于和ChatGPT一樣的邏輯，即“大力出奇跡”。聶再清提到，此前，文字生成視頻的挑戰在于，用于練習模型的視頻，需要將分辨率、長寬比、時長等調整為統一格式，便捷性不夠。Sora提出用時空視覺patch（補?。⒉煌囊曨l數據轉化成統一的視覺數據表示，patch即相當于訓練ChatGPT過程中用到的token（文本的最小單元），每個視頻不用修改格式，而是先壓縮，提取時間和空間節點的數據，直接輸入模型學習。OpenAI官方介紹，Sora可以采樣寬屏1920×1080p、垂直1080×1920p以及介于兩者間的所有視頻。采樣更加靈活，視頻的數據量也會增加。

此外，訓練文本生成視頻，需要大量帶有字幕的視頻數據。OpenAI利用了DALL·E 3和GPT模型，為訓練的視頻集中生成字幕，可以提高文本保真度以及視頻的整體質量。

但在王帥看來，模型技術實際上是個公開的秘密，Sora的能力之所以如此驚艷，更關鍵的是OpenAI喂給模型的數據，“他們到底用了多大規模的數據，數據如何選擇，這些在OpenAI的報告中只是點到為止，幾乎沒有任何細節，但只有業內人士知道，這才是關鍵”。

紐約大學計算機科學助理教授謝賽寧是機器學習領域知名學者，他是擴散模型（diffusion）一篇重要論文的主要作者之一。Sora便是一個擴散模型，同時結合了ChatGPT使用的底層模式Transformer，在視覺領域實現突破。謝賽寧在社交媒體上也直言，OpenAI完全沒有談論數據來源和構建，這可能暗示數據才是Sora成功最關鍵的因素。他猜測，OpenAI可能用到了游戲引擎數據，以及電影、紀錄片、電影長鏡頭等，數據的質量非常重要。

Sora根據提示文字：“兩只金毛犬在山頂錄制播客”生成的視頻截圖。

Sora仍存在明顯弱點

“你可以準確地畫出你的想法，然后將其變為現實?！闭鐓⑴c設計Sora的OpenAI工程師蒂姆·布魯克斯所言，Sora降低了視頻制作的技術門檻，但對于講故事能力的要求有所提高。人們不免擔憂，Sora的出現，對于好萊塢電影工業會產生重大影響，導演、攝像、化妝、道具、剪輯、配音等一大批從業人員或將失業。

一位不愿具名的AI產業研究者在接受《中國新聞周刊》采訪時提到，生成視頻工具不等于會講故事的導演、編劇，就像印刷術不能替代李白、杜甫，所以視頻的大規模生成，只是顯著降低批量生產的門檻與成本，視頻作品的創意性、故事性、藝術性，將在更加海量的作品競爭中要求越來越高。

現階段，Sora仍存在明顯的弱點。在社交媒體上，蒂姆·布魯克斯根據提示語“人們在海灘放松，然后一條鯊魚從水中跳了出來，讓所有人大吃一驚”，發布了由Sora生成的視頻。視頻中，一位女性看到鯊魚后扭頭求救，但因扭頭角度過大，被網友戲謔是“做了驅魔人式的180度旋轉”。OpenAI也公開承認Sora當前的局限性，它不能時刻準確模擬物理世界的交互規律。比如，在它生成的視頻中，一個人在跑步機上反向跑步，一些實體場景中，人或動物會自發冒出來，甚至AI將一把椅子建模成了一個柔性的物體。

在聶再清看來，現在人們看到的都是由OpenAI挑選后發出的視頻，大家覺得很驚艷，但到底還有多少不完善之處，不能完全確定，還要等面向公眾開放后才知道，Sora離理想中的世界模型還有多大的差距。

王帥對Sora模型的認知更為冷靜。他更在意Sora這類模型如何落地。近期，有人向他詢問，Sora生成的視頻中，人和車輛那么自然，模型是怎么控制每個物體的？但實際上，模型運行的方式與人類思考的方式截然不同，模型根本不知道有物體存在，是大數據告訴它每一部分要做成什么樣子。生成視頻依靠的是巨大的數據量，如果有足夠數據，便會更好生成視頻。但未來在編輯視頻時，可能會出現數據分布之外的情況，如果數據沒有覆蓋到，生成效果可能不盡如人意。

王帥進一步解釋說，不只是要數據規模大，還要有更好的數據細節，“人們使用模型生成了一個效果很好的60秒視頻，但這還沒有結束，人們后期如果想做視頻編輯，比如摘掉那位東京街頭漫步的女士的墨鏡，如果訓練數據中沒包含這一動作的視頻，或很少見，模型可能做不到這一指令，或者做得效果很差。因此，在測試時，需要做非常多的調試工作，是非常耗時耗力的事情?！蓖鯉浱岬?，Sora的學習邏輯與ChatGPT是相通的，模型學到了足夠多的數據，因而掌握了數據間的規律。但這仍和通用人工智能有區別—— Sora本質上還是在模仿訓練數據中的視頻。

“一段文字提示，模型中可能會對應上千萬的視頻，目前OpenAI呈現了一個看起來足夠好的視頻，大家就覺得這個模型很厲害，但你不知道它能不能很好地生成其他視頻?！蓖鯉浱岬?，這就像是一個問題有100個答案，但它只給出一個正確答案，這意味著大模型就會做這個題了嗎？不是，除非它也能把剩下99個答案都告訴你，才說明它的理解沒有問題。

至于是否會顛覆影視行業，在王帥看來，大家現在猜測一些大方向，但很可能答案是在意料之外?！肮雀鑴偝闪r，人們不會想到它會以做廣告盈利；人們最初對Facebook改變社交方式寄予厚望，但不會想到它后來會出現泄露用戶數據隱私的丑聞，AI技術亦是如此。很多技術人員認為只要解決技術難題就可以了，不是這樣的。技術在商業和社會層面將會帶來怎樣的影響，是極其復雜的，很難單獨用技術邏輯來理解?！?/p>

（王帥為化名）

猜你喜歡

王帥文字社交

英語世界(2023年6期)2023-06-30

Tolerance-enhanced SU(1,1)interferometers using asymmetric gain

Chinese Physics B(2023年1期)2023-02-20

社交牛人癥該怎么治

意林彩版(2022年2期)2022-05-03

文字的前世今生

小天使·一年級語數英綜合(2021年9期)2021-09-22

熱愛與堅持

小雪花·小學生快樂作文(2020年6期)2020-10-13

第一財經(2020年4期)2020-04-14

當我在文字中投宿

文苑(2020年12期)2020-04-13

Quantum interferometry via a coherent state mixed with a squeezed number state?

Chinese Physics B(2019年4期)2019-04-13

你回避社交，真不是因為內向

文苑(2018年17期)2018-11-09

王帥藍色是篤定的顏色

大眾電視(藍天下)(2018年7期)2018-10-08

中國新聞周刊2024年7期

中國新聞周刊的其它文章: 實現高質量發展需扎扎實實做好自己的事; 普拉博沃的總統之路; 小冰CEO：大模型已出現非常大的泡沫; 寧浩：《紅毯先生》是一盤湘菜; 孫玉石：我思想，故我是蝴蝶; 我宣布：正式退出春節檔

91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合