?

人工智能大模型探析

2023-09-02 02:45吳權夫
廈門科技 2023年4期
關鍵詞:數智算力融合

吳權夫

2022 年11 月30 日,美國OpenAI 公司發布了ChatGPT, 因其與人類自然語言對話的出彩表現,使得人工智能(Artificial Intelligence,AI)受到前所未有的關注。 其背后生成式預訓練轉換器大模型GPT(Generative Pre-trained Transformer)受到熱捧,類似ChatGPT 的AI 產品爆發式增長,預示著數字化和智能化融合的數智時代即將開啟。

當前,大模型成為企業最為關注的熱點。 互聯網大企業關注如何訓練出自己的通用大模型,以便做出可以和ChatGPT 媲美的產品; 垂直行業的IT 企業關注如何開發專用大模型,提升行業AI 應用水平;而眾多傳統企業則關注如何將IT 系統接入大模型,以獲得AI 能力。

本文全面介紹大模型的起源、限制,存在的未解之謎和未來發展方向, 探討如何運用大模型實現數智融合, 提出AI 時代企業和個人的應對之道。

大模型的演進與發展

大模型通常指深度學習中的大型神經網絡模型,至少具有數百萬至數十億,甚至千億以上的參數規模。 千億級參數及以上規模的大模型訓練需要投喂大量的數據語料,需要大算力。 大數據和云計算為大模型的實現提供可能, 指示了大模型的來路。

1.大模型練功時代

2017 年6 月,Google 機器翻譯團隊發表了論文Attention is all you need, 論證了只基于注意力機制的Transformer 轉化模型簡單有效, 指出了增加層數和節點數提高模型性能的路徑, 從而引發各開發機構紛紛入局試驗。 試驗的內容主要包括參數大小、訓練數據大小對模型性能的影響,也包括模型能耗試驗和多模態試驗。 這篇論文開啟了大模型的練功時代。

增加參數數量,提高大模型性能,成為這一時代大模型練功的主要方向。 以OpenAI 的GPT 大模型為例,2018 年6 月,第一版GPT(稱為GPT-1)的參數數量為1.1 億,訓練數據約為5GB;2019年8 月,GPT-2 的參數數量為15 億, 訓練數據為40GB; 而到2020 年5 月的GPT-3, 參數數量為1750 億,訓練數據為45TB。 而支持ChatGPT 的預訓練模型就是在GPT-3 的基礎上用大量RLHF(Reinforcement Learning from Human Feedback,即通過人類反饋進行強化學習) 自監督的文本微調而來的, 這個版本被稱為GPT-3.5, 是它成就了ChatGPT 完成對話任務的優秀表現。

2.大模型競賽時代

2022 年11 月30 日,在ChatGPT 發布之后,大模型進入競賽時代。 對于大模型研發機構,它們在比賽誰研發速度更快,誰的大模型性能更好,以及是否可以聯接更多應用,是否更低成本,是否有多模態能力;對于非大模型開發機構的應用企業,則競賽誰更快對接大模型,更快擁有AI 能力。

表1 是2023 年3 月的1 個月內國內、 外發布的大模型或大模型應用事件, 超過之前2022 年全年發生的事件數量。

表1 2023 年3 月國內外發布的大模型或大模型應用事件

表2 是2023 年4 月7—14 日, 國內集中發布的大模型,大模型競賽進入高峰。

表2 2023 年4 月7—14 日國內集中發布的大模型

從互聯網產業“快魚吃慢魚”“大樹之下寸草不生”的競爭經歷來看,大模型競賽的背后邏輯就是要爭取進入AI 產業鏈的頂端,在AI 時代占有一席之地。

而參與者積極參與的原因之一是資本炒作的需要。在國內,2023 年5 月8 日,科大訊飛股份有限公司發布“星火”大模型后,當日股票現漲超6%。在國外,5 月11 日, 谷歌發布了對標GPT-4 的大語言模型PaLM2。 據介紹,這是目前最為先進的大語言模型,其性能已經部分超越了GPT-4。 當日,谷歌的股價漲超4%,創8 個月來新高。

3.費用、數據和算力制約大模型參數競賽

制約大模型參數競賽的因素主要有3 方面。

一是費用方面,根據有關機構計算,GPT-3 訓練一次的成本140 萬美元,采用大量RLHF 微調的ChatGPT 訓練一次的成本在200 萬美元以上。ChatGPT 的運行成本也是相當高的,2023 年1 月,平均每天約有1300 萬獨立訪客使用ChatGPT,為滿足使用要求的初始算力投入成本約為8 億美元,電費約為5 萬美元。 大模型如此“燒錢”, 導致OpenAI 在2019 年從成立時的非營利機構轉為有限盈利機構,以獲得微軟100 多億美元的投資資金續命。

二是數據方面, 大模型吞噬大量訓練數據,但人類互聯網歷史上被保留下來的各種高質量語料,已經在GPT-4 或PaLM2 及其更高版本的訓練學習中被消耗殆盡。大模型參數數量仍然可以繼續增長,但對應數量的高質量數據卻越來越稀缺,因此,增長參數數量帶來的邊際效益愈發降低。

三是算力方面,在2023 年3 月,英偉達專用于大模型參數計算、 采用專用Transformer Engine 架構的英偉達H100 NVLINK 芯片發布之后,市場借機炒作,售價已經飆升至4 萬美元以上,但仍然處于一片難求的狀態。 即使強如OpenAI 的GPT-4或微軟的New Bing, 也多次因為算力不足不得不公開宣布短時間內暫停訪問。算力成為大模型進一步拓展使用場景的重要制約。

數據耗盡、算力不足,指示了大模型的歸途。

4.大模型推理之謎、涌現之謎和幻覺之謎

(1)推理之謎

OpenAI 首席執行官山姆·阿爾特曼表示,從ChatGPT 開始,AI 出現了推理(Reasoning)能力。但沒人能解讀這種能力出現的原因。

(2)涌現之謎

在模型規模小于某個臨界值之前,模型基本不具備任務解決能力。只有當模型規模大到一定程度時,效果才會急劇增長,且參數量越大時效果越好,被業界稱為“大力出奇跡”。這種現象也被稱為大模型的能力涌現(Emergence)現象。 “涌現”現象的產生與具體任務有關,不同任務產生“涌現”現象的臨界值并不相同,大部分要達到70 億的參數規模。 目前,還沒有完全清楚其產生原因。

(3)幻覺之謎

目前不清楚的還有大語言模型會生成語義不連貫或者語句無意義、錯誤或者偽造信息以及無法理解的回答,產生“一本正經胡說八道”內容的現象,被稱為大模型幻覺(勻allucination)現象。 大模型“幻覺”現象多發生在用欺騙性問題測試它時,如逼它回答類似“林黛玉為什么要三打白骨精”的問題,它就會“一本正經胡說八道”。

研究發現,大模型“涌現”和“幻覺”除了與模型參數規模有關之外, 還與訓練數據量的大小和質量、訓練充分程度等因素有關,正在快速試驗和改進之中,例如,GPT-4 出現“幻覺”的情況就比之前版本少。

5.大模型的通用化和專業化發展

(1)大模型或許只是通向AGI 的一段探索過程

人類對于AI 的探索沒有止境, 將不斷向通用人工智能(Artificial General Intelligence,AGI)的方向研究探索,目標是獲得會聽、看、說,會思考、學習和有行動能力的通用智能。 然后,繼續向類腦超級智能的方向研究探索,目標是超大參數、超低能耗的模擬人腦的超級智能。

大模型能否通向AGI?“圖靈獎”得主、“深度學習三巨頭”之一的楊立昆(Yann LeCun)預測,未來5 年內, 沒有人會再用自回歸大型語言模型,GPT系統將很快被拋棄。 而即使是山姆·阿爾特曼也表示過“也許AGI 是永遠抵達不了的烏托邦,但這個過程會讓人類越來越強大”。

(2)高質量數據集加專有領域小模型也能達到好效果

2020 年10 月,OpenAI 推出數學定理推理模型GPT-f,該模型參數60 億,但在解決小學數學應用題方面的效果直逼GPT-3。分析認為,GPT-f 用了8.5K 高質量數據集并且針對小學數學題進行訓練,相當于一個專有領域的模型。也就是“學得越好、領域越小”。

(3)大模型將向通用化和專業化兩個方向發展,追求應用落地

通用化發展方向是通用基礎大模型,類似移動互聯時代的iOS、Android 系統,是“AI 時代的操作系統”,如OpenAI 的GPT-4 或谷歌PaLM2。目前,首先落地的應用是互聯網搜索、辦公、數字人/機器人等。 如:GPT-4 接入NewBing、Office “全家桶”等; ChatGPT 接入蘋果Siri、 亞馬遜機器人Astro等。

專業化發展方向是垂直應用大模型。它通過對通用基礎大模型(自研或開源模型)進行蒸餾,壓縮成為規模較小、用途明確的垂直應用大模型。例如,APUS 從其研發的AiLMe 大模型內蒸餾出文本、圖像、視頻、音頻4 個垂直領域精煉模型,并基于此開發出直接面向用戶的智能問答大師、 簡筆成畫、墨染等AI 產品。此外,還有一種更小、更專業的模型,部署在前端或邊緣位置的系統或設備模型。 例如,清華大學智能產業研究院(AIR)研發的自動駕駛模型。

運用大模型實現數智融合

大模型的起源和未來發展方向揭示了大模型的價值將落在各個行業的應用當中。 當前,傳統企業數字化轉型進入關鍵階段, 以ChatGPT 牽引而興起的智能化也同時到來,通過大模型,探索數字化與智能化融合,具有重要意義。

1.數字化和智能化通過大模型的運用實現融合

大模型匯聚了人工智能(AI)、大數據(BigData)和云計算(Cloud)等技術,A、B、C 融合構建數智融合系統(圖1)。 在數智融合系統構建過程中,大模型起到3 個方面的作用:一是大模型訓練提升碎片化數據和歷史數據的利用率并反饋到生產系統;二是大模型訓練需要的高質量數據要求促進數字化系統重構或升級; 三是大模型賦能數字化系統AI能力,提升數字化系統效率、敏捷性和友好度。

圖1 數據+AI 驅動的數智融合系統

2.數據飛輪推進數智融合系統循環升級

設計數據飛輪, 推進數智融合系統循環升級(圖2)。 數智融合系統生成的大數據經過處理,提供給大模型進行訓練,形成新的模型,升級數智融合系統,升級后數智融合系統重新部署,開啟新一輪運行,產生新的數據,準備下一輪的迭代。 數據飛輪不斷循環,推進數智融合系統不斷升級,提升系統性能。

圖2 數據飛輪推進數智融合系統循環升級

3.大模型應用部署

大模型應用部署的基本要求是: 一是有算力配置、數據處理和服務請求的地方就應有算法、有模型。 二是處于邊緣的邊緣設備部署小模型;處于中間的霧網絡部署中型模型; 處于中心的云計算中心部署大模型(圖3)。三是大、中、小經過反復訓練,生成整體智能。

圖3 邊(Edge)、霧(Fog)、云(Cloud)計算的模型部署

AI 時代,我們該如何應對?

1.To B 的啟示

(1)對于大企業,建議參考華為和騰訊的做法

任正非在“難題揭榜”火花獎公司內外的獲獎者及出題專家座談會上表示:“ChatGPT 對我們的機會是什么? 它會把計算撐大,把管道流量撐大,這樣我們的產品就有市場需求”。 華為對于自己能做什么、該做什么一直很清醒。

面對“AI 淘金時代”,騰訊變身“賣鏟人”。圓園圓猿年4 月14 日,騰訊搶先發布面向大模型訓練的新一代高性能計算集群(High-Performance Com鄄puting Cluster,HCC)。 該集群采用騰訊云星海自研服務器,搭載英偉達最新代次H800 GPU,服務器之間采用業界最高的3.2T 超高互聯帶寬,為大模型訓練、自動駕駛、科學計算等提供高性能、高帶寬和低延遲的集群算力。 騰訊明白,淘金熱潮之后,結算下來,賺錢的只有“賣鏟人”。

(2)對于中小企業,建議專注小模型和專有數據集

得益于“學得越好、領域越小”的啟發,專業小模型+專有數據集或許是中小企業的AI 之路。 因此,對于中小企業,一是要看好自己積累的數據,參考專業模型的開發案例(如Alpaca 7B 模型),學習開發自用的專業模型;二是接入大模型,提升業務系統AI 能力;三是跟蹤大企業垂直大模型應用方向,配合做好“地接”應用。

2.To C 的啟示

“AI 不能取代你,取代你的是會AI 的人”是一句受到普遍認可的話。 其背后的啟示是,AI 時代,每個人都要掌握一兩樣AI 工具。

表3 是截至2023 年3 月發布的 《AI 工具Top10 榜單》。 圖4 是2022 年9 月5 日,在美國科羅拉多州博覽會的藝術比賽中,利用榜單中序號2的Midjourney 創作的《太空歌劇院》作品,該作品榮獲比賽第一名,引起輿論嘩然。 這一事件說明,對于繪畫這樣需要專業技能的工作,利用AI 繪畫工具可以獲得更大競爭優勢,也印證了AI 時代掌握AI 工具對于每個人工作和生活的重要性。

圖4 利用Midjourney 做出的畫作《太空歌劇院》(資料來源:網絡)

表3 AI 工具Top10 榜單

結語

大模型因為大數據、云計算得以實現,也因為成本、數據和算力的限制,制約了其參數規模的無限制擴大; 大模型具有完成各種任務很好的能力和效果,但也存在多個未解之謎;大模型將向通用化和專業化兩個不同方向發展, 其價值都在應用落地。在傳統企業數字化轉型關鍵階段,探索數字化和智能化融合具有重要意義, 大模型起到重要作用。 AI 時代正在來臨,企業要以更加務實的姿態接納AI,每個人都應該掌握一兩樣AI 工具。

猜你喜歡
數智算力融合
基于網絡5.0的重疊網形態算力網絡
“數智”視域中蘇南蒲岸村微濕地公園公共設施情感化設計研究
路安炎:按下中國造紙業“數智轉型”啟動鍵
衛星通信在算力網絡中的應用研究
中國電信董事長柯瑞文:算力成為數字經濟的主要生產力
網安天下擔使命數智引領向未來"雙引擎"驅動現代警務創新人才培養(計信系攝影報道)
村企黨建聯建融合共贏
鄉鄉鎮鎮通5G”建設助力山西“數智”轉型
基于SiteAI算力終端的交通態勢感知系統
融合菜
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合