?

Sora,路向何方

2024-05-03 03:16非田
看世界 2024年5期
關鍵詞:人工智能文本模型

非田

Sora生成的視頻畫面

“一位時尚的女人走在東京的街道上,街道上到處都是溫暖的發光霓虹燈和動畫城市標志,她自信而隨意地走路。街道潮濕而反光,營造出五顏六色的燈光的鏡面效果。許多行人四處走動?!笨吹竭@樣一段文字,人類腦海中會浮現出一些場景,最近,人工智能讓腦海里的想象照進了現實。

2月16日,OpenAI公司的視頻大模型Sora橫空出世,通過上面的文字提示,最終生成了一段長達59秒的視頻,盡管細節仍有少許“出戲”之處,但乍一看,其已與人類正常拍攝的電影短片無明顯差別。

毫無疑問,2024年,人工智能技術,尤其是視頻技術,將繼續“井噴”。1月底,谷歌才剛發布了AI大模型Lumiere,可根據文字直接生成5秒長的視頻,并保證較強的運動連貫性,而這一度被認為具有劃時代意義的模型,在Sora面前已經顯得不太夠看—當AI以不可思議的速度迭代,也難怪馬斯克驚呼“人類愿賭服輸(gg humans)”。

與此同時,即便Sora尚未面向公眾開放,但單憑官網放出的幾段視頻,也足以加劇大眾對人工智能的擔憂。身份驗證公司iProov的首席科學官Andrew Newell博士在接受哥倫比亞廣播公司采訪時表示,Sora將使不懷好意者更容易生成更高質量的深度偽造視頻。

站在巨人肩膀之上

如果拿武俠小說來類比,本番震驚世人的Sora,并不是因機緣撿到武林秘籍后,頃刻間功力突飛猛進的少俠,而更像是在藏經閣內閉關苦練多年后,終于打通任督二脈之人。

文字轉視頻是AI領域重點關注的方向之一?!堵槭±砉た萍荚u論》雜志在去年曾預言,生成式人工智能的第二波浪潮將是視頻。如今才剛開年,Sora的出現就印證了這一預測。

Sora是一種文本到視頻模型,這種技術涉及將自然語言轉換為視覺(圖像或視頻)的表現形式,它的成功是“站在巨人肩膀之上”。

在Sora之前,行業內較為出名的公司名為Runway,2018年成立后,一直在開發人工智能驅動的視頻編輯軟件,其客戶不僅有Tiktok和YouTube的自媒體創作者,也包括一些主流電影和電視工作室。

2021年,Runway與慕尼黑大學的研究人員合作構建了文本生成圖片的AI模型Stable Diffusion的初代版本,另一家初創企業Stability AI隨即加入,強強聯手之下,Stable Diffusion進步神速。

盡管兩家公司后續鬧掰,但選擇發力的領域也都不約而同選擇了文本轉視頻。Runway于去年2月推出了Gen-1模型,該公司負責人在接受美國媒體采訪時稱,自家AI已經離制作完整的故事片非常近了。

而此時,這條賽道上巨頭已然入局,包括Meta的Make-a-Video和谷歌的Phenaki,它們都可以從頭開始生成非常短的視頻內容。

《麻省理工科技評論》認為,生成式人工智能的爆炸式增長是由數百萬人推動的。與Runway的路徑相似,據OpenAI的科學家Aditya Ramesh介紹,Sora最早也是從自家的文本到圖像模型DALL-E起步,但卻通過采各家之所長,從而實現了質的飛躍。

Sora生成的視頻畫面

一方面,Sora的創新之處是建立在谷歌DeepMind早先發表的基礎研究之上。另一方面,它又融合了兩大模型。

傳統的文本到視頻AI采用擴散模型(Diffusion Model)。其訓練過程或是對一張真實照片逐步添加噪點,變為純噪點圖片,或是將一張純噪點圖片按照AI的思考“還原”成一張圖片。

而Sora創造性地將這一模型與GPT-4應用的Transformer模型原理相結合,把視頻分解為三維坐標系里的一個個坐標點,再通過專門的解碼模型將其生成為視頻圖像,這一方案也被業界稱為“Diffusion Transformer”(DiT)架構。

要想生成連貫或一鏡到底的畫面,就必須先理解事物間相互作用的規則。

從5秒到60秒

文本到視頻的合成,是一項具有挑戰性的任務,AI模型不僅需要理解文本的含義和上下文,還得處理好視頻的視覺和物理方面內容。

基于對現實世界中物理規律的理解,人類在看到一幀畫面后腦補前后的場景并不困難,但對于AI而言,要想生成連貫或一鏡到底的畫面,就必須先理解事物間相互作用的規則—比如明白墨水沾到紙上會出現顏色,風吹樹葉會向一側擺動等。

得益于ChatGPT等的成功,AI理解文本方面已經有了明顯突破,而視覺和物理一直是AI企業發力的方向,直到Sora的出現,才算取得了里程碑式的成功。

早前,如Meta推出的“Make-A-Video”,雖可以準確理解文字意思并生成視頻,但產出的視頻里布滿了如上世紀80年代早期電視機上的各種“雪花”與噪點;而Runway迭代出的Gen-2模型,已經不時可以制作出質量接近大型工作室動畫的短片,但持續時長和動作連貫性也都很難讓人滿意。

直到今年1月,谷歌Lumiere才較好地解決了視頻連貫性問題,讓AI生成的視頻不至于出現類似“威爾·史密斯吃意面”般人類像外星人且五官亂飛的“奇景”。但在時長方面,Lumiere單段可生成的視頻最多也只有5秒,谷歌解釋稱,這已經超過大多數媒體中的平均鏡頭長度。大多數媒體中的平均鏡頭長度。

谷歌AI大模型Lumiere

正當業內為Lumiere的5秒連貫歡呼時,在DiT架構的幫助下,Sora直接將時長拉到了60秒,而且還能實現運動狀態下的一鏡到底。

在OpenAI發布的演示視頻中,Sora能熟練運用鏡頭語言和處理遮擋,像是經過精心剪輯,影片主題也更為明確,更對得起“短片”的稱呼。

在后續發布的一則以東京冬日為主題的視頻中,Sora甚至學會了如何在3D場景中將物體組合在一起—“鏡頭”以俯沖視角進入場景,跟隨一對夫婦走過一排商店,還出現了同一場景下的多角度多機位畫面。

此外,當世人的目光都被Sora高質量的文本生成視頻能力吸引時,卻忽視了其在視頻方面具備許多明顯甩開競爭對手不止一個身位的能力:比如支持生成寬屏1920×1080、豎屏1080×1920之間各種分辨率格式的視頻;又如基于現有的靜止圖像生成視頻,還可以向前或者向后“補充”現有視頻內容;或按要求改變原有視頻的風格。

當然,OpenAI公司在宣傳中也坦陳,現在的模型依然存在不少弱點,比如可能難以準確模擬復雜場景的物理特性,并且可能無法理解因果關系的具體實例,使得視頻出現咬了一口餅干但餅干沒有咬痕、吹了蠟燭但燭焰沒有隨風擺動等情況;

又比如,因為混淆提示的空間細節,難以精確描述隨時間推移發生的事件,從而生成出人物穿模、籃球穿過籃筐然后爆炸等詭異畫面。

對此,OpenAI也表示,正努力教人工智能理解和模擬運動中的物理世界。目前,Sora尚未向公眾開放,除了受招募而來測試AI的志愿者外,只允許數量有限的藝術家、設計師和電影從業者使用,并將根據他們的反饋進行調整。

擔憂與前景

盡管Sora尚不完美,但依然不妨礙業界人士稱贊其偉大。英偉達高級科學家范麟熙(Jim Fan)將Sora類比成當年的ChatGPT-3;紐約大學計算機科學助理教授謝賽寧則認為,Sora將改寫整個視頻生成領域的游戲規則。

與大佬們不吝贊賞不同的是,國外媒體在報道Sora時所用的措辭相對克制,大多著重提及了Sora的潛在風險。

最顯而易見的是版權問題?!都~約時報》稱,OpenAI拒絕透露該系統從中學習了多少視頻或它們來自哪里,只是說訓練了包括公開可用的視頻和從版權所有者那里獲得許可的視頻—而就在去年年底,《紐約時報》才以OpenAI在未經授權情況下使用其受版權保護的新聞進行AI訓練為由,提起了訴訟。

今年恰逢美國總統大選年。路透社、《商業內幕》等英美媒體紛紛對Sora可能影響選舉表達了擔憂?!稌r代》周刊稱,人工智能生成的內容可能被用來錯誤地影響選舉,或以其他方式在世界范圍內播下混亂;而《每日郵報》則表示,Sora為代表的AI工具,能讓別有用心之人更容易制造“深度偽造”視頻。

限制AI發展的考量,不僅僅來自技術本身,同樣在于技術倫理層面。對于超級英雄而言,是能力越大責任越大;對于“超級AI”來說,則是能力越大,由此引發的擔憂也就越大。

年初,在世界經濟論壇上發布的《2024年全球風險報告》中,也將人工智能產生的錯誤信息和虛假信息,列為世界面臨的最重大風險之一。

在AI浪潮席卷之下,即便是名人也難以獨善其身。不久前,用深度偽造技術生成的流行歌手泰勒·斯威夫特不雅照片與視頻瘋傳網絡。

連美國總統拜登也不能幸免?!都~約時報》稱,有成千上萬的選民收到了用AI制作出的“克隆”拜登聲音,指導他們如何投票。

Sora生成的視頻畫面

現在的模型依然存在不少弱點,比如可能難以準確模擬復雜場景的物理特性。

對于層出不窮的AI模型,美國似乎也沒有很好的處理方式,往往只能一禁了之,現已有十幾個州以法令形式,限制人工智能在政治廣告中的使用。美國聯邦貿易委員會也在Sora發布后的2月15日提議修改規則,禁止使用AI工具冒充人類。

而在中國,已有不少人開始蹭起了Sora的流量,或是借機兜售AI課程,或是販賣根本不存在的Sora內測權限和使用手冊。知識社群應用軟件“知識星球”上更是一夕之間出現了多個與Sora相關的社群,其中不少需要付費才能加入。

與亂象相伴的,是對Sora想象力的匱乏。大部分媒體在談及Sora的影響時,往往只局限于影視、游戲、內容創作等與視頻強相關的領域,用類似“現實不存在”“端掉行業飯碗”之類聳人聽聞的標題,制造著焦慮,收割著流量,而未能看到Sora的潛力,頗有買櫝還珠之感。

就像十多年前談及4G不該僅考慮網速、討論智能手機不該只探討對通信行業的影響一樣,從技術層面來看,Sora能帶給這個世界的驚喜或許遠不止視頻。

360集團創始人周鴻祎在社交媒體上表示,Sora對物理世界的模擬,能幫助AI更好地理解物理世界,從而對自動駕駛行業產生積極影響。這一觀點旋即遭到Meta首席AI科學家楊立昆“隔空反駁”—后者認為,如果Sora只是為了生成視頻,這沒什么問題,但如果其目的是了解世界如何運作,那就是一個失敗的方法。

盡管尚未有定論,但雙方的這番“交鋒”,顯然讓世界看到了Sora的更多可能。太陽底下無新事,當以山姆·奧特曼為代表的程序員為世界打開了名為AI的潘多拉魔盒,類似的討論此后還將重復無數次。

責任編輯吳陽煜 wyy@nfcmag.com

猜你喜歡
人工智能文本模型
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
在808DA上文本顯示的改善
2019:人工智能
基于doc2vec和TF-IDF的相似文本識別
人工智能與就業
數讀人工智能
3D打印中的模型分割與打包
下一幕,人工智能!
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合