?

多模態大模型如何助力企業數字化轉型

2024-03-19 04:32李高勇劉露

清華管理評論 2024年2期

關鍵詞：模態轉型數字化

李高勇劉露

人工智能（Artificial Intelligence， AI）大模型是指利用深度學習技術對大規模數據進行訓練，獲取從輸入到輸出之間映射關系的AI模型。如果訓練數據是文本數據，這樣的AI大模型就是大語言模型（Large Language Model， LLM）。2022年Open AI公司發布的ChatGPT就是大語言模型，它可以精準地理解自然語言，生產流暢連貫的自然語言文本。隨著算力的迅猛發展和大模型廠商之間競爭的加劇，AI大模型的訓練物料也向諸如圖像、視頻等其他多種類型數據（也稱之為模態，modal）拓展，并實現異構模態的協同推理，大模型也從單模態發展為多模態（multimodal）大模型。2023年3月，Open AI發布的ChatGPT4.0版本就升級為多模態大模型。谷歌發布的Gemini也屬于多模態大模型，它可以識別文本、圖像、音頻、視頻和代碼五種類型數據。

大語言模型的出現提升了人們對利用人工智能完成對話和提問等任務的期望，它的實際應用也確實展示出變革人們生活和工作的巨大潛力。例如，基于大語言模型的對話系統可以與用戶進行自然語言交互，理解用戶的意圖并生成有意義的回復。這類對話系統在客戶服務、智能助手等領域有著廣泛的應用。大語言模型用于搜索引擎，可以提高搜索結果的準確性和相關性，讓用戶更容易找到需要的信息。例如，微軟將ChatGPT集成到搜索引擎中，融合了以鏈接為中心的傳統搜索模式和新的AI模式。新的搜索引擎能更好地回答傳統搜索引擎不擅長的、更復雜和更開放的問題，并以更容易理解的方式呈現整合后的搜索結果。例如，用戶搜索旅游目的地時，整合了大語言模型的搜索引擎直接給出易于理解的旅游攻略，大幅提升搜索體驗。

相較于大語言模型等單模態大模型，多模態大模型能處理不同類型的數據，特別是非典型模態數據——3D視覺數據、深度傳感器數據和自動駕駛中的LiDAR（激光雷達）數據等，為AI提供更完整的輸入，幫助其更好、更普遍地理解外部環境，并且協同多模態數據進行推理以適應和應對環境，帶來更真實、更流暢的人機交互體驗。因此，多模態大模型也賦予了AI更豐富、更深層次的應用。

當前多模態大模型的應用主要集中在醫學診斷、行為識別等領域。在醫學診斷方面，多模態大模型能結合影像數據（包括CT和X光影像等）、臨床數據（各種醫療儀器獲取的生理指標）和生化數據，協同推理病人生理狀態并輔助醫生作出診斷。在人類行為識別方面，多模態大模型能夠通過識別語音和肢體動作，更清晰地理解人類的意圖，更精確地推斷人類行為的目的。在安檢領域，國內某公司開發的多模態大模型可以同時識別人的手勢和面容，從而實現智能化的電子警察卡口；也可以協同視覺模態（面部表情）和音頻模態（音調和音高）識別情緒，即通過“察言觀色”進行情緒識別。

多模態大模型展示出在企業管理，特別是在支撐企業數字化轉型方面的巨大潛力，其中一個重要的體現就是多模態大模型能夠彌合業務和技術之間的認知差異，實現業務人員和技術人員的社會匹配（Social Alignment），降低數字化轉型的難度。多模態大模型配合無代碼和低代碼等技術可以實現技術平民化，消除業務和技術間的認知鴻溝，助力業務人員主導的數字化轉型，甚至能配合AI智能體實現數字化轉型的自動化。本文重點關注多模態大模型如何助力企業數字化轉型。

數字化轉型為何失敗

實施數字化轉型，即利用數字技術徹底改造原有的商業模式、運營模式和生產/服務模式從而實現能力的全面升級，是企業適應動蕩環境和獲取新型競爭優勢的首要戰略選擇。然而，數字化轉型與其他類型的組織變革存在本質上的差異，它具有顛覆性和外源性兩個特征。顛覆性指的是數字化轉型是對企業的徹底變革，這個特征已經被人們所熟知，所以大部分企業在實施數字化轉型時會采取“一把手負責制”和領導參與轉型等方式來降低顛覆性帶來的負面影響。

數字化轉型還具備外源性的特征，即對企業來說，數字化轉型的動因并非業務的變化，而是和自身業務差異極大但又非常專業且有較高學習門檻的數字技術的迅速興起。數字化轉型的實質是融合業務和數字技術來打造新生產運營模式，但是工作崗位職責、個人經歷和背景等方面的差異導致業務（人員）和技術（人員）存在巨大認知差異。業務人員無法理解技術知識，技術人員同樣難以理解業務知識，這阻礙了業務和數字技術的融合。Nash Squared在2022年11月調查了超過2100名領導者，其中54%的領導者表示業務和技術之間的認知差異已經成為阻礙變革的重要因素。

當前業務和技術之間的認知差異主要通過培訓和學習等方式彌合。業務人員的時間精力被日常工作占據，而且還存在認知惰性；對技術人員來說，隨著數字化轉型的走實向深，個性化的業務需求越多且越難理解，簡單的培訓和學習以及傳統的需求分析方法的效果并不顯著。因此，如何彌合技術和業務之間的認知鴻溝成為數字化轉型過程中必須要解決的問題。多模態大模型的特征和優點為解決這個問題提供了新的思路。

如何彌合數字化轉型的認知差異

能夠理解信息并從中推理出合理的結論是大模型的基本能力，因此大模型可以充當不同部門間的“翻譯”，成為知識傳遞和共享的橋梁。在數字化轉型情境中，大模型可以將業務知識“翻譯”成技術知識，或者將技術知識“翻譯”成業務知識，從而縮小、跨越甚至消除技術和業務之間的認知差異，加速業務和數字技術的融合。

首先，多模態大模型可以為不同部門的人員開發個性化的學習方案，增強學習和培訓的效果，從而縮小業務和技術之間的認知差異。例如，湯森路透推出GenAI教育計劃，其中一項重要的培訓內容就是利用多模態大模型針對培訓對象的個體特征以及工作職責開發內部學習資料。在該教育計劃中，大模型會為相同的問題開發不同的學習內容，譬如針對系統開發人員在學習資料中嵌入矢量數據信息相關內容，針對開發工程師在學習材料中加入如何對版式進行調整等內容，使技術人員能更深刻地理解業務需求。這種個性化的學習方式提升了技術與業務之間的社會匹配，成為轉型的“潤滑劑”。

多模態大模型提供了更好的人機交互界面，為場景化學習和培訓提供工具。多模態大模型能夠將文本知識轉換成更符合人們認知習慣的圖片和視頻，也能夠拆解復雜場景，降低學習難度。以IT服務公司Ensono為例，其在提供轉型服務時需要分析和理解被服務公司的工作流程，傳統情境下這項工作耗時費力且容易出現理解上的偏差。該公司引入多模態大模型服務，拆解被服務公司的業務流程并實現可視化，幫助技術人員理解業務。

其次，多模態大模型幫助業務和技術直接跨越認知差異，促進數字化轉型的實施。相比于大語言模型這樣的單模態大模型，多模態大模型可以開展深層次學習，挖掘深層次知識，從而推進企業數字化轉型向更深層次擴展。例如，多模態大模型能夠處理傳感器數據，這些反映了工業機理、工藝原理的數據是難以通過傳統的需求分析獲取的，將這些數據與產品質量和銷量數據等協同推理，助力企業實現生產模式的轉型。

傳統的判別式（Discriminative）人工智能通過分析輸入數據和對應的輸出標簽之間的關系來進行分類和決策，缺乏對數據生成過程的建模，因此導致了預測過程不透明、預測結果不可解釋等問題，降低了人工智能的可信度，阻礙了人工智能在組織決策方面的應用。大模型屬于生成式（Generative）人工智能，盡管分析過程依然不可見，但可以針對其輸出進行提問。結合長期和短期記憶，大模型能夠復現決策過程，為輸出做出合理解釋，從而提升可信度，有助于實現非程序化決策的數字化轉型。

再次，多模態大模型徹底消除了技術和業務之間的認知差異，實現完全由業務方主導的數字化轉型。多模態大模型開始走向標準化和模塊化，實現模型即服務（Model-asa-Service， MaaS）；配合AI智能體，可以在沒有技術人員介入的情況下實現數字化轉型的自動化。例如，微軟在桌面系統Windows 11和辦公軟件Microsoft 365中集成AI助理Copilot，幫助不太精通系統操作的用戶在沒有技術人員幫助的情況下實現專業級的人機交互和系統操作。

基于生成式人工智能的大模型能夠生成新的數據樣本并進行學習，實現了自我學習和自我適應。這意味著大模型能夠從自身的經驗中學習，并根據這些學習成果來改進其性能。傳統的IT技術具備剛性架構和很強的專業性，一旦實施剛性系統就會鎖定用戶業務流程。當用戶業務發生變化時，系統難以實現同步調整，這就形成“IT鎖定”的現象。大模型自我進化的能力配合低代碼和無代碼技術，當企業的業務流程發生變化時，大模型自主學習協同處理新業務流程中的物流、資金流、信息流、責任流、風險流等，推理出更合理的新流程；業務人員調整無代碼和低代碼平臺以適配新流程。大模型甚至可以直接調整系統，實現無須技術人員介入的數字化轉型。

如何助力數字化轉型

多模態大模型尚處于發展初期，但已經展示出巨大的潛力。從大模型消除業務和技術間的認知差異出發，結合當前的先行應用，以下將從研發環節、生產控制、客戶服務及產品創新等幾個方面分析多模態大模型如何助力數字化轉型。

研發環節

在數字技術賦能下，研發已經從實驗驗證發展到模擬和仿真的模式，即通過仿真技術處理生產經營中積累的大型數據集，并基于特定的規則進行批量建模，再利用“數字孿生”對3D模型進行試生產以驗證可行性。當前的大型數據集需要根據仿真軟件的需要進行清理定制，嚴重限制了數字化研發的深度和應用范圍。多模態大模型直接將消費端數據（如同類和類似產品的在線評論等）納入到研發過程，協同處理消費端與生產研發端的數據，以研發更能滿足市場需求的產品。

本文作者參與的一款飲料的開發就展現出了多模態大模型在研發中的潛力。當前最為主流的飲料研發是成分組學，即分析原材料中的風味物質后，通過改變它們的配比以獲取最符合市場口味偏好的產品。然而，這個過程中存在著兩個問題：第一，產品過程需要發酵，而發酵過程不可控，導致風味物質不可能直接精確控制，需要通過其他方式進行間接測量和控制；第二，產品最終口感由專業品評人士憑主觀感受判定，無法直接量化。為了解決這兩個問題，研發團隊嘗試使用多模態大模型分析生產過程數據，嘗試在風味物質與生產環境之間建立聯系；同時，利用大模型的自然語言理解能力量化品評結果和消費者對產品口味的評價，最終獲取最佳配方和最佳生產工藝。盡管研發進展并不快，但是該項目展示出多模態大模型在研發中的無限可能。

生產控制

生產控制領域是制造業最復雜的環節，也是制造業數字化轉型的核心。但是這一領域數據埋藏深，數據類型多樣化，數據關聯廣，數據間斷點多，導致數字化轉型服務商，甚至是制造企業的操作人員和業務人員都無法發現轉型中的需求。

多模態大模型與物聯網等技術可以實現制造業企業內部、產業上下游之間實時、泛在的連接，彌合企業數據流動過程中的斷點，助力數據高效流動。同時，多模態大模型能對數據進行協同推理，調整不合理的業務流程，提升制造企業的協同效率，助力制造業走向智能協同生產。例如，西門子和微軟在2023年4月宣布合作開發PLC（可編程邏輯控制器）的代碼生成工具，以期實現基于業務場景的代碼自動生成，實現操作和控制的自動化，助力基于生成式AI的自動化技術變革。

客戶服務

客戶服務是大模型商業化落地最為成熟的場景?？蛻舴帐聦嵣蠈儆诔绦蚧瘺Q策，即大部分的客戶訴求都存在程序化的解決方案。但是傳統人工智能在處理自然語言時難以理解客戶意圖，也無法給出流暢自然的回答，限制了客戶服務的自動化和智能化。

大語言模型理解并輸出自然語言的能力解決了以往自動客服存在的問題，將客戶服務環節推進到智能時代。大語言模型能夠準確理解客戶的自然語言并判斷用戶意圖，之后根據設定的規則選擇解決方案，以自然語言的方式向用戶呈現清晰、易理解的回答?；陂L短期記憶的能力，大模型還能夠維護用戶多輪對話上下文、跟蹤對話狀態以及生成對話策略等，以更符合人類行為模式的方式解決客戶訴求，滿足客戶需求。

產品創新

當前數字化轉型對產品創新的影響是將實物產品進行服務化衍生。例如，在個人層面提供可穿戴設備和智能家居等產品，在企業層面提供工業設備的遠程維護和數據服務等。大模型的人機交互能力進一步助力終端產品的智慧化。

集成多模態大模型的終端產品協同語音、圖像和身體姿態等數據，能更好地推理使用人員或者操作人員的意圖，從而提高產品與用戶的交互，為產品的服務化提供了新的方向。例如，將多模態大模型接入人形機器人，通過訓練使其能夠根據實際情況產生控制策略，操縱機器人實現“使用人的工具，實現人的能力”，這已經成為開啟“具身智能”時代的鑰匙。

需要承認的是，AI大模型特別是多模態大模型還處于發展的初期，引發了諸多的爭議。從假設到驗證、從理論到實踐、從試點到普及是一個漫長的過程，社會各方面人士應通力合作，共同推進大模型對包括企業管理在內的經濟社會的革命性顛覆。

猜你喜歡

模態轉型數字化

轉型發展開新局乘風破浪向未來

中國核電(2021年3期)2021-08-13

家紡業亟待數字化賦能

紡織科學研究(2021年6期)2021-07-15

航天器在軌管理模式轉型與實踐

航天工業管理(2020年4期)2020-06-16

高中數學“一對一”數字化學習實踐探索

福建基礎教育研究(2019年1期)2019-09-10

高中數學“一對一”數字化學習實踐探索

福建基礎教育研究(2019年1期)2019-05-28

童話世界(2018年13期)2018-05-10

數字化制勝

中國衛生(2016年2期)2016-11-12

灃芝轉型記

知識經濟·中國直銷(2016年10期)2016-02-27

國內多模態教學研究回顧與展望

湖北經濟學院學報·人文社科版(2015年8期)2015-12-29

基于HHT和Prony算法的電力系統低頻振蕩模態識別

上海電機學院學報(2015年4期)2015-02-28

清華管理評論2024年2期

清華管理評論的其它文章: 明星員工的困境與破局; A/B測試：驅動數字創新的隱形力量; “專精特新”企業成長的Y型模式; 6C鉆石模型：大數據時代的電影生產與營銷; 網絡貨運運力供應鏈的組織模式創新; 新AI浪潮下的新業務流程重組

91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合