?

Sora和人類，誰才是那個工具人？

2024-03-05 03:43闕政

新民周刊 2024年8期

闕政

大年初七，中國觀眾正看賀歲檔電影呢，OpenAI第三發重磅炸彈來襲——繼ChatGPT、DALL·E之后，Sora，一個只要輸入簡單提示詞就能生成1分鐘高精度視頻的AI模型，驚撼世人。

短短一年多，眼看著文生文、文生圖、文生視頻……作家、畫家、電影家，都恍惚聽到了飯碗落地的脆響?？墒堑纫幌?，我們多年來渴望的AI，不該是科幻片里常見的全職服務員嗎？

人類理想狀態的AI，應該像《機器人瓦力》里的WALL·E一樣會自動鏟垃圾，像《機械姬》里的萬能女管家一樣包攬家務，像《上鎖的房間》里的機器人一樣會照顧病人，像《銀翼殺手》里的復制人一樣去外星開荒做苦力，像《機械戰警》里的ED-209一樣維護治安，像《西部世界》里有血有肉的牛仔一樣端茶倒水提供娛樂服務，至少也得像《她》里的超級女聲薩曼莎，能通過電波聊天解悶安撫人心……

結果倒好，鏟垃圾的WALL·E沒研發出來，GPT、DALL·E、Sora倒是前后腳殺到。合著只有人類是剛剛好進化到了必須工作必須做家務的階段，而AI卻能直接跳過柴米油鹽，開啟寫作畫畫拍電影的文藝生涯是嗎？

AIGC（人工智能生產內容）時代就這么招呼都不打一聲地降臨了。Sora如一滴清水落入油鍋，影視圈炸了，一則以喜，一則以懼。

喜的人，最近張口閉口都把四個字掛在嘴邊：“降本增效”。從前的AI不太理解現實世界的物理規律，從前的AI生成的視頻像gif動圖，長度也只有幾秒鐘，而Sora和他們有質的不同，就像計算器遇到了計算機。

影視人已經開始盤算可以給Sora派哪些活干：最近美國《綜藝》雜志上刊載了一張調查圖——在影視和游戲行業從業者眼中，AI最擅長的活包括：為影視或游戲創建逼真音效、自動完成代碼以協助游戲編程、為影視和游戲開發3D虛擬世界、為影視和游戲制作故事板、為影視作外語配音、編寫游戲對話、為影視創建逼真的合成演員、寫影視劇本……

從前拍電影的總羨慕作家只用一支筆就能寫出千軍萬馬，不像拍戲，要預算要搖人組局要置景要拍還要剪——現在Sora向世人展示了“傻瓜級”視頻制作，僅僅輸入幾個關鍵詞，就能產出精美畫面。未來，我們普通人做一個白日夢，也可以交付給AI，生成劉慈欣+郭帆范兒的科幻大片，“你行你上”的戲謔庶幾要成真。

其實早在Sora橫空出世之前，AI在影視制作中的應用已不是新鮮事——簡單粗暴的有“換頭”，最近《繁花》熱播，有網友做二創，用全香港演員班底換頭制作了港版《繁花》：梁朝偉演阿寶，伍詠薇演李李，江美儀演玲子……看起來倒也別有一番味道。

國產科幻電影的巔峰之作《流浪地球2》里，大到“太空電梯”，小到給演員減齡，背后都有AI加持。電影里所采用的“虛擬攝影”技術也已經不是大片專利——橫店影視城里有虛擬攝影棚，很多網劇都用上了這個成熟的技術。相比古早一無所有的“綠幕”背景，虛擬攝影能將現實場景投射到LED大屏上，讓演員從“無實物表演”變得更有臨場感。

放大來說，影視劇全產業鏈都已有AI的影子——前期策劃評估、劇本創作、故事板、分鏡圖，到拍攝、特效、后期、修改，AI能降本增效的地方很多，區別只是，有些地方做得好，有些地方還在“一本正經地胡說八道”，需要人力監督。

賀歲片《熱辣滾燙》最后的花絮里，導演賈玲曬出自己學畫畫的成果，因為她給《你好，李煥英》畫的分鏡頭過于幼稚，此番除了減肥還潛心學畫，結論是：畫畫比減肥100斤還難。不過將來賈玲導演應該不需要費勁學畫了，因為在文生圖、制作電影故事板和分鏡頭這塊領域，AI已被證實能力超群。甚至好萊塢有電影商拿了真人繪制和AI繪制的故事板去問投資方意見，資方表示更認可AI作品。

編劇王策也曾使用GPT、文心一言、訊飛星火等AI模型來嘗試劇本創作和評估，“輸入4000字以內的劇本大綱，AI一般會給出一套特別工整的條目式評價，一二三四五，從故事內容、市場前景、觀眾體驗方面給出意見?！辈贿^在這方面，AI就不如繪圖那么靠譜，“80%都是廢話，人工去梳理調整所花的時間精力，跟我自己做也差不多。寫劇本就更不行了，人寫劇本用的是情感邏輯，AI是依靠數據算力?！钡舱J為，給AI一點時間，未來能做的事會越來越多。

ChatGPT問世的時候，被形容為新時代的“火和電”。那么Sora會不會是新時代的“蒸汽機”？在改變時代的同時，也會將很多人甩下時代的列車？

前不久好萊塢演員工會大罷工的訴求之一，就是要求限制人工智能代替演員。而科技流恐怖片《黑鏡》早在去年就預見到了“數字明星”可能帶來的可怕后果：女明星售出自己的肖像權給電影公司開發成AI主角，遭到反噬。

剛剛落幕的柏林電影節上，Sora同樣成為國際電影人爭論的焦點。關鍵詞和中國影人如出一轍：興奮又焦慮。據《好萊塢報道》，影人們反復提到AI可能對工作造成的威脅。有人已經給OpenAI的CEO 山姆·奧特曼（Sam Altman）喊話：“請不要把我變成一個無家可歸的人?！蔽磥?年內，好萊塢總計會有超過20萬人的工作崗位會因為AI受到沖擊。

當我們看到Sora目前生成的幾十段1分鐘樣片：幾千個紙飛機如同群鳥飛過叢林，紅色小熊貓在培養皿的竹林里躍動，帆船在咖啡杯里經受暴風考驗……就知道它對傳統電影CG的沖擊有多大。那些曾經需要高昂成本才能制作1秒的特效畫面，現在直接就能生成1分鐘。

看到Sora樣片的第一眼，智元動力（北京）科技有限公司CEO王博的反應是：不可能吧？可再仔細一看OpenAI公布的與Sora相關的技術論文，看到幾十個案例擺在面前，他的心情又變了：“有點被嚇到，這真是顛覆行業的東西?！?/p>

以往說電影是“每秒24幀的真理”（戈達爾），是圖像與圖像連續播放的邏輯，但現在邏輯變了。

以往做3D需要三維建模，需要根據鏡頭要求制作關鍵幀，需要考慮連續性合理性和表演性，根據不同項目設置參數。但Sora有一套自己的生成邏輯，和GPT相似，是“預測下一幀”最可能出現什么樣的畫面。

由于目前Sora僅僅開放給極少數人群內測，王博對它還存有一個疑問：從文字提示詞（prompt）到生成一段1分鐘的視頻，要花多長時間？他詢問了一位海外獲得內測資格的朋友，對方直接把測試結果發給他看：那是一幕真實性極高的草原畫面，連太陽光暈的變化都非常逼真。而對方在提示詞中強調的“使用手持攝像，肖像視圖，帶一點鏡頭光暈”，可以說匹配度也很高。

而他最想知道的“耗時多久”這個問題，朋友的回答是：實時。

“這聽起來更恐怖了?！蓖醪┱f。

在“互相傷害”的調侃里，原畫師們感嘆，這下子要失業的終于不只是原畫師了。燈光、攝影、后期、特效，乃至明星，可能被團滅。

在最悲觀的想象里，AI已經不再是雙刃劍，而像是核武器，鏈式反應猶如滅霸的響指，搞不好噼啪一聲，整個影視行業都沒了——觀眾想看什么內容，自己生成就行——原著AI寫，編劇AI來，電影AI拍。字生文，文生圖，文生視頻，再配上一副虛擬現實的眼鏡，無景弗現，無遠弗至。

但是千百年的文明進程告訴我們，人類是靠樂觀活下來的，所以，先別急著跪下喊爸爸，更別急著交網課學費——現在賣課割韭菜的人，99.9999%對Sora都是只聞其聲，連個內測資格都沒有就出來騙人。

Sora到底有沒有超能力？判斷這個問題，我們可以先從前Sora時代的AI入手。

最近，麻省理工大學主辦了一個“AI for filmmaking”電影制作比賽，主題是“Space I call home”（我稱之為家的那片宇宙）。這場比賽面向全世界開放，要求是“主要由AI完成”以及“視頻時長在2分鐘以上”，有不少中國人參賽，其中蕭飛和王超導演的一段4分鐘視頻入圍了技術獎。

在這段名為“什么地方你叫做家？”的短視頻中，主創們從小女孩、紅汽車、黑貓、一顆種子4個不同的視角傳達對‘家’的理解，最終落腳在一句中國古代哲言：心安處，即是吾鄉。

王超是“百夫長影像工作室”的創始人，在視頻制作領域創業已有十幾年，近年開始關注到AI。他向記者講述了AI生成視頻的全過程：“蕭飛先以比賽主題創作了幾段詩意的文字，之后的事情大部分由AI完成——GPT 3.5將文字變成旁白、將旁白翻譯成英文，Midjourney 6.0把語言轉化為88張分鏡圖，Magnific增強圖像效果，PixVerse和Runway把圖片轉化為時長4分27秒（亦即6408幀）的視頻，最后由Elevenlabs為英文旁白配音，加上開源版權的配樂，完成整個視頻的制作?！?/p>

王超制作的短片，圖片都由AI 生成。

在王超給GPT的指令中，他希望AI能將最后一句旁白翻譯成莎士比亞式的詩意古英語；在給Midjourney的指令中，他希望AI可以在片頭做出“末世廢土風”，帶一點手繪的感覺，而中間的敘事段落則要以普通人的視角切入，影像風格偏真實，“用33毫米電影鏡頭，采用Imax攝像機拍攝”；而到了圖生視頻階段，又希望PixVerse為貓咪加上伸懶腰、瞇眼睛的動態——結果AI都成功辦到了。

不過，這并不代表過程中就不需要人工參與；相反，與人們想象中的“一鍵生成”相比，人力花費的時間長達8天。

“每個環節AI都會暴露一些問題?！蓖醭忉屨f，“最大的問題是AI每一次的回應都帶有隨機性，我們戲稱為‘開盲盒’：即使你每次都輸入同樣的提示詞，它出來的結果依然會是不同的?！?/p>

比如他想生成一張黑貓的圖片，第一次出來是綠眼睛，第二次出來是藍眼睛；第一次瘦些，第二次胖些；女孩子身上穿的“白底碎花裙”，每次也都有細微差別。為了生成最終能用的88張分鏡圖，王超一共試了600多次才成功?！拔覀冃性捊小畆oll圖’，就是圖片生成出來，人工要手動挑選，挑選出來的圖，很多細節如果不符合現實世界的物理規則，也要手動用筆刷修改：小貓的爪子怎么動，葉片如何隨風搖擺，都要去設定參數。很多時間就花在這里。所以用AI做視頻，雖然硬件成本是降低了，但體力成本是一點沒減少?！?/p>

前Sora時代的AI并不高效，那么Sora能繞開這些原始問題嗎？在王超看來，部分可以：“我們從樣片中可以看到，Sora在光線、動力、風感等很多自然界的規律上，能夠和現實世界匹配。它生成視頻的長度和精度也遠超當下技術，而且從單機位變成了多機位，且跳過了圖片階段，這些都是質的飛躍?！?/p>

但Sora的底層邏輯和GPT相似，因此也存在概率和隨機性，它不是故意做得每次都不同，而是沒法做到每次都相同?！癝ora目前能做到的是60秒內的場景一致性和情節連貫性，再長就難說了。如果將來要應用在影視劇，麻煩就大了：你不能今天故事發生在這個場景，明天發生在那個吧？主角的臉，第一集是一個，第二集是另一個，那當然也不行啊?！?/p>

蕭飛也認為，AI目前在品質上并不能取代傳統，但它讓很多囿于時間和經費的點子成為了可能，這也許會爆炸式地提升視頻內容的數量和質量：“我們可以把它看作是手機高清攝影取代了傳統專業攝影，讓不具有專業器材和專業培訓的內容創作者有了實現夢想的可能?！?/p>

最近傳出某影視從業者說要打造全AI劇，但這種鼓吹“一鍵生成”的，大部分是騙子。以Sora目前的時長，影響短視頻行業或許還有可能，但拍電影電視劇，即使微短劇也夠嗆。

OpenAI也并不避談Sora的缺點，官網上承認：“交互是目前系統最大的短板之一，AI還不能完全把握時間的因果關系和物理世界的法則，例如人咬了一口餅干后，餅干的形狀會發生怎樣的變化?！?/p>

看過Sora樣片的觀眾應該都注意到了其中的“穿幫”之處：打翻水杯的時候，水從杯壁而不是杯口流出；橘貓向主人伸出第三只手；女子左右腳互換；櫻花樹無根系地浮在半空……本來這些穿幫并不算什么，也許是隨機生成中的一次小失誤——但考慮到官方樣片一定是精挑細選之后的產物，記者眼前就出現了《致命魔術》里那一堆帽子——在“大變活人”震撼世界的同時，背后可能有海量的失敗堆骨成山。這無疑給Sora的可靠性打了一個問號。

在影視一線從業者重涵看來，“Sora的精度和質感較高，但傳統影視需要的要素之一是‘明確’，而Sora暫時是‘模糊’的，它只能做到‘差不多’，做不到‘必須’。影視視聽語言是蒙太奇的藝術，而Sora對蒙太奇的理解去到什么程度，仍然未可知。我們在課程中也會嘗試用GPT做故事創意，但AI邏輯性強，創意不夠，目前暫時還只能起到參考作用”。

美國對此也有相似看法?！毒C藝》雜志最近以《為什么OpenAI的Sora還沒有準備好取代好萊塢》為題，總結了Sora的三大缺點：連續性、可控性和版權?！笆紫仁沁B續性：Sora所承諾的改進并不能完全保證主體/客體和環境的連續性，不足以確保電影或電視節目的敘事或外觀的連貫性。其次是可控性：到目前為止，這些工具還不能為電影制作者提供足夠的創意控制和精確度，以獲得和操縱他們的輸出結果——這意味著在短期內，人工智能可能會比傳統方法有更多困難和受限，而不是更少。更重要的是，如果版權法和生成人工智能的各個方面都沒有更加明確，好萊塢制作極不可能將這些輸出用于屏幕鏡頭?！?/p>

即使拋開版權，單從技術角度來說，如果將來Sora能夠解決連續性和可控性的問題，它會給影視行業或者說人類帶來天翻地覆的變化嗎？Wolfram語言的發明者、40多年前就開始研究計算思維發展和應用的行業先驅Stephen Wolfram最近在個人網站上發表了一篇文章《人工智能會奪走我們所有的工作并結束人類歷史嗎？嗯，這很復雜……》，在文中，他解釋了GPT的原理——

“ChatGPT 的內部結構實際上在計算上可能與大腦非常相似，其中有數百萬個簡單元素（相當于大腦的神經元）形成一個‘神經網絡’?！瑿hatGPT的基本概念在某種程度上相當簡單：首先從互聯網、書籍等渠道獲取人類創造的海量文本樣本，然后訓練神經網絡，從‘提示’開始，生成‘與之類似’的文本?！瓝碛袛蛋賰|參數的神經網絡一次一個標記（token）地生成文本，結果是非同凡響的。鑒于這種戲劇性和意想不到的成功，人們可能會認為，如果能夠‘訓練一個足夠大的網絡’，就能夠用它來做任何事情。但事實并非如此。關于計算的基本事實，尤其是‘計算不可約’的概念，表明它最終是無法做到的?！?/p>

“計算不可約”（computational irreducibility）這個概念就是Wolfram最早提出的，他認為，“能力和可訓練性之間存在著一個終極權衡：你越想讓一個系統‘真正利用’其計算能力，它就越會表現出計算不可約性，從而越不容易被訓練?！币虼怂袛?，科學實際上“衍生出其自身的局限性”。在許多方面，ChatGPT從未“真正理解”過事物，它只“知道如何產生有用的東西”。

不得不說，科學家們在“去浪漫化”上有一手：多巴胺是快樂，費洛蒙是愛意，不可約性則從某種程度上象征了人類難以被取代的思維。而Sora與GPT的底層邏輯相通，因此有理由懷疑它會遇到同樣的“計算不可約”問題。

哪怕只是全面替代電影人的工作，路也很長很長。它也許已經端掉了一些人的飯碗，但從長遠來看，就像汽車取代了牛馬，縫紉機取代了紡織工，AI在消滅一些職業的同時，也會創造一些新的——比方說“roll圖員”“鑒真師”“查重師”“連貫師”“AI協調者”“數字明星經紀人”，一切只是時間問題?；仡^看看蒸汽機發明后的幾百年來，我們每周的平均工作時間縮短了嗎？——人類總能為自己找到新工作（苦笑）。

在教育賽道深耕了十多年的王博傾向于把Sora看作一個“超級工具”：“如果你只把自己當成工具人，那么即使沒有AI，遲早也會失業?！蔽纳鷪D流行之后，來王博這里接受培訓的制圖師反而很多，“有些AI制圖軟件是給小白入門用的。但如果要做專業的圖，相應的AI也會更復雜，比如剛剛出來的Stable Diffusion 3，是需要人力去和AI配合完成的”。

一方面，AI制圖量大便宜，正在大規模淘汰相對底層的制圖師；另一方面，原本并非制圖行業的人卻在逆勢涌入，“因為他們從前如果要入行，光是技術門檻就很高，現在反而可以彎道超車，從學習軟件技術，變為學習使用AI”。

經過多年實踐，王博得出一個結論：“AI的產出效果，跟使用AI的人的能力，有正相關性?！盇I能以非常低的成本做許多事，前提是你要學會和它溝通?！癆I就像一門外語，最終考驗的還是你的語言能力——對事物的描述也許不必非常細致，但必須精準?！保〝道砜茖W的飛躍，最終考驗的是語文，意不意外，驚不驚喜？）他想幫助更多人理解AI，反客為主，而不是陷入對AI的焦慮。

顯然，AI勢必會淘汰一些人，影響一代人，但歸根到底目前還不是AI和人的較量，而是人和人的較量。這聽起來有點像那個地獄笑話：熊追你的時候，你不需要跑贏熊，只需要跑贏你的同伴。

AI和外星人有幾分相似。有些人覺得他們是“拯救派”，另一些覺得他們是“降臨派”。人類的終極恐懼是被異族團滅，而自打“圖靈測試”開始，關于AI“自我意識”的爭論就從未停歇。

王博曾經和研究AI深度學習的微軟科學家（也是OpenAI研發Sora的合作科學家）討論過這個問題，對方覺得，AI有沒有自我意識，看你如何理解自我意識：“就像人看電影的時候，電影里的角色，觀眾覺得是有血有肉，有喜怒哀樂也有悲歡離合的，但演員在塑造角色的時候有沒有自我意識？也許有，也許是設計出來的。那么你說，人是不是也有可能是由高維度的智力設計出來的呢？”

王博用SD自動生成的圖片，讓他意識到AI產出的效果和使用者的能力息息相關。

最近流行說“世界是個草臺班子”，充滿了隨機出現、無法預測的bug。反過來想一想，如果有造物主的話，對人類的原始設定也許相當簡單，不需要親力親為捏幾十萬億個細胞出來，也不需要設計復雜的激素信號、神經系統、DNA雙螺旋結構，只需敲入幾行字：碳基生物，生活在地球，生老病死，敢愛敢恨——后面的一切就交給隨機性自己去生成了。因為正如Stephen Wolfram所說：“即使只是重復應用非常簡單的規則，也可能產生巨大的復雜性?！?/p>

科幻電影里有過許多“缸中腦”的設想，最有名的莫過于《黑客帝國》——假如有一天，發現人類真的只是玻璃缸里漂浮著的大腦，而另一面卻是色彩斑斕《頭號玩家》一樣的AI元宇宙，你會選擇哪個？科技發展到最后，提出的是哲學問題。

其實Sora帶來的負面問題中，最有可能快速成真的就是“深度偽造”。連永遠的小學生柯南君都知道后果會有多嚴重：新的動畫電影里就有Deepfake情節?！把垡姺菍崱?，不但會大肆污染人類的數據庫，更可怕的是造成“虛實難分”——假作真時真亦假，上一秒你覺得假視頻是真實生活，下一秒，你可能就會覺得家里的墻壁上隱約出現馬賽克、全世界都是一個巨大的障眼法——人類哪里經得起這樣的精神分裂啊。

肉眼凡胎的人類，雖然喜歡看奇幻電影，但也別低估了我們對于真實的在意。人是需要真實感的動物，不然怎么說服自己：世界不是一堆代碼，自身不是缸中之腦？將來AI大規模生成視頻的那一刻來臨，即使不說技術上作多少約束，至少也得像轉基因食品一樣，好歹打上一個標簽才能上市。

而眼下影視界近在咫尺的焦慮，也可以從Sora的底層邏輯上去緩解——它的“知識結構”來自于全人類上傳到互聯網上的文本、視頻，它可能看過了電影自1895年誕生以來的全部在世作品，它甚至也許能從“隨機性”中產生一點“創意”（畢竟所謂創意大部分時候就是打破常規），也許能模擬人類的喜怒哀樂，讓“感情”也顯得并非人類專屬——但它的一切都是從“紙上”得來，而“紙上得來終覺淺”——人類在一段生命中的所得，卻大都來自于親身感受、體驗、躬行。就像最好的導演，不是技法多么超群，而是能夠理解人。AI也許很快就能獨立制作出《少年派的奇幻漂流》里那只老虎，但至少在100年內，它無法替代李安。

寫這篇文章的時候，我讓AI也幫我寫一篇同主題文章，幾個不同的AI幾乎異口同聲回答我：“AI可以模擬物理世界，但它無法模擬人類的情感世界。Sora雖然可以提供技術支持，但無法替代人類的創造力和表演力?！薄磥硭孟褚灿悬c自知之明？有點可笑，也有點可怕。

面對Sora帶來的疾風暴雨，人文藝術家應該自信一點，從戰術上敬畏它，從戰略上藐視它。就像郭帆導演一樣，在使用AI辦事之時，都恭恭敬敬加上一個“請”字?？墒且矂e忘了，ChatGPT使用了1750億個“旋鈕”，而人腦的神經元數量也有1000億個。這些神經元每個都有樹狀分支，連接成復雜的網絡，每個神經元每秒電脈沖約1000次……從GPT到Sora，基本上還只是模擬了大腦神經網絡的很小一部分，我們要像田忌賽馬一樣，別去和AI硬拼算力——下等馬先輸一程沒關系，還有中等馬和上等馬黃雀在后。雖然武無第二，但文也無第一啊。

新民周刊2024年8期

新民周刊的其它文章: Sora又一個王炸？; Sora到底是何方神圣？; Sora問世，法律風險何在？; Sora降世，五大行業一夜變天; “百模大戰”之后，國內AIGC產業“大浪淘沙”; 熱點

91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合