?

生成式AI時代媒介的自然交互范式及其實踐進路

2024-05-08 17:07喻國明蘇健威黃哲浩
編輯之友 2024年3期
關鍵詞:人機交互

喻國明 蘇健威 黃哲浩

【摘要】生成式人工智能時代的一個重要特征,是自然交互正在逐漸取代圖形控件交互成為主流的人機交互范式。其對媒介傳播的影響在于:一方面使媒介超越個性化的范疇,能夠以極為細微的需求為基礎形成資源的聚攏以及與用戶的細密連接;另一方面,自然交互范式允許媒介以無界的方式融入用戶情境中。自然交互范式存在三個主要的發展階段,分別是初期話語溝通、中期模態拓展與數據匯通、遠期心智融通,這本質上是自然交互范式從模擬人類交往到超越人類交往的過程。

【關鍵詞】生成式人工智能 人機交互 自然交互 媒介實踐

【中圖分類號】G206 【文獻標識碼】A 【文章編號】1003-6687(2024)3-058-08

【DOI】 10.13786/j.cnki.cn14-1066/g2.2024.3.008

人機交互是研究人、計算機之間相互影響的技術,其研究重點是用戶界面,即人與計算機之間傳遞、交換信息的媒介和對話接口。[1]20世紀70年代,美國施樂公司研究人員艾倫·凱發明了重疊式多窗口系統,形成了圖形用戶界面,[2]隨后基于觸摸屏的交互,例如iOS、Android的系統交互界面,在交互學習成本和易用性方面做出了重大改進,使得圖形界面交互得到了極大普及,成為移動互聯網媒介時代人機交互的主要形式。

自然交互是區別于圖形控件交互的一種嶄新形態,它顛覆了圖形控件交互所依賴的鍵盤、鼠標或觸摸屏交互邏輯,通過自然語言、表情、行為等方式,使用戶與計算機形成交流,催生了智能音箱、智能客服、語音助手等諸多媒介形態。伴隨著以ChatGPT為代表的生成式人工智能技術的成熟,自然交互進一步實現了從堪用到好用的質變。一方面,ChatGPT通過持續與用戶對話,不斷對用戶的個性化要素進行識別、學習和整合,并將輸出要素進行結構化處理,以貼近用戶的方式進行有機呈現,實現了對人類交往方式的深度模擬。[3]另一方面,ChatGPT能夠實現連續性人機協同。用戶可以在個人賬號中保存人機對話記錄,并基于該記錄實現長期連續性對話。[4]這種前所未有的技術特性驅動了人機交互范式的變革——自然交互將逐漸取代圖形控件交互成為主流。

由于交互界面是用戶(人類)調用數據、算力、算法等機器智能要素的關鍵中介,因此人機交互范式的革新標志著機器智能可供性的提升以及人類借由媒介增強自身實踐能力的拓張,這是整個社會深度媒介化進程中一個極為重要的變化。據此,本文聚焦生成式人工智能時代的自然交互范式,在其概念特征的基礎上,探討自然交互范式如何影響現有媒介實踐,及其未來走向何處。

一、自然交互范式:定義、特征及其與媒介的關聯

1. 自然交互:以先天習得、符合直覺的方式與機器交流

自然交互即基于自然用戶界面的交互范式。自然用戶界面是人機交互界面的新興范式,通過研究現實世界的環境和情況,利用新興的技術能力和感知解決方案實現物理和數字對象之間更準確和最優化的交互,從而達到用戶界面不可見或者交互的學習過程不可見的目的,其重點關注傳統的人類能力(如觸摸、視覺、言語、手寫、動作)和更重要、更高層次的過程(如認知、創造力、探索)。[5]自然用戶界面被認為是下一代交互界面的主流。用戶只需以最自然的交流方式(如自然語言和肢體動作)就能與計算機進行交互,與計算機交流就如同和一個真實的人交流一樣。在基于自然用戶界面的交互時代,鍵盤和鼠標等將會逐漸消失,取而代之的是更為自然、更具直覺性的科技手段,如觸摸控制、動作控制、自然語言控制等。[6]

自然交互具有通用性、規范與有效性、經驗性三個基本特征,這三個基本特征詮釋了自然交互區別于以往交互方式的關鍵之處。

(1)通用性:機器拓展人類實踐的全功能。作為自然交互的基礎,語言是一種生活形式上的一致,[7]是人們可以相互理解的基礎,是意義的載體。盡管并非所有人都共享同一套語言系統,但是人們對語言的運用模式,語言的構成要素是大同小異的,都展現了人類對事物的理解與邏輯推理,都承載了絕大部分的意義,實現了大部分的交流,而并不是某一種語言系統只能實現某一個或幾個功能。因此,生成式人工智能的核心即讓人工智能步入通用性實踐,能夠處理多范圍任務,解決多領域問題,[8]表現出自然交互的通用性。

(2)規范與有效性:機器對人類認知機制的深度模擬。語句的意義是為了某種目的而產生的,并且個體只有理解使用者的目的,才能真正理解語句的意義,自然交互才有可能產生。若人工智能無法理解使用者的意圖,它就無法對使用者進行合適有效的反饋,自然交互就不可能實現。因此自然交互必須具有規范性。在人際傳播中,符號互動論與社會行為等理論都指向了雙方主體共享同一套規范體系。在自然用戶界面上,這種規范性更為凸顯,使用者組織的語言必須遵守所使用語言的語法,要構建合適恰當的語境,要真實明確地反映自己的需求,這樣才能實現有效的自然交互。

(3)經驗性:人類個性化交互的慣習累積與模式形成?!罢Z言游戲論”指出,人類在場景中學會表達,在場景中理解語義。在此基礎上,語句逐步脫離特定場景,話語套著話語,一個詞的意義由另一個詞或一串詞來解釋。[9]這充分表明,人們在自然交互中會積累一定的經驗,并運用到之后的自然交互中。然而,經驗性除了表現為交互語言蘊含的個體在之前的知識積累外,還能體現為在交互過程中個體根據反饋實現的調節與修正。在與生成式人工智能的交互中,這一特性更為明顯,用戶可以對人工智能進行預訓練,使其對某個板塊的知識完成匯聚和積累,再通過指令促成其對問題的準確回答,若回答不能讓用戶滿意,用戶可以給予反饋,此時人工智能將根據反饋進行解釋、調整或糾正,從而完成多輪交互。

2. 自然交互范式下的媒介:細微的連接與無感化的中介

為了更好地理解自然交互范式對媒介的影響,我們有必要先回顧自然交互的基礎——自然語言之于傳播的意義。維特根斯坦曾提出“語言圖像論”,將世界的本質看作“事態”,即對象關系的連接。因為具有相同結構,所以語言可以描繪世界、表達心靈?!罢Z言游戲論”則認為語言作為一種原始形式的活動而存在,是和人類其他活動編織在一起的。[9]比如老師指著一塊石頭,學生說出對應的“石頭”一詞,在這一層面上,語言是一種對世界的直觀反映與描摹,是一種不可逆的同外界的交互形式。未經分析的語言表達式是我們正常的交際工具,其意義在使用中被賦予。[10]這里的關鍵在于,維特根斯坦以語言的工具觀揭示了人類與世界交互的連續性、發展性。奧斯汀與塞爾的“言語行為論”在此基礎上強調語句的意義是由使用者(人)在某種語境下,為了某種目的而產生的。因此個體只有理解使用者使用語句的意圖時,才能真正理解語句的意義。[11]它將語境、行為等非語言要素引入意義的交流。這些理論共同揭示了自然語言之于交流的關鍵意義在于,其實現了用戶外部經驗世界的解析和內心世界的演繹,幫助交流的雙方理解領會彼此的意蘊。

從自然語言之于傳播的意義出發,自然交互范式對媒介與傳播的影響可以歸結為:一方面,自然交互范式構造了傳播場域中更加細密的連接。從傳播學的核心概念“受眾”被更具有交互主動性色彩的“用戶”所替代可以窺見,在媒介(中介形式)不斷迭變的過程中存在著一條重要的規律——人類與媒介的交互程度是在不斷加深的。人類通過與機器越來越深入地交互,不斷驅動機器輸出與自身更加匹配的內容。例如衛視頻道的切換使得用戶能夠自主選擇心儀的節目,檢索詞的輸入幫助用戶快速定位到需要的信息等。媒介交互范式進化帶來的最為顯著的影響是媒介中介的粒度加細,即從大眾傳播到分眾傳播,再到針對每一個用戶的個性化傳播,用戶能夠使用越來越豐富、多元、立體的信息來描摹自身以及自身的需求,驅動媒介對相關的信息、資源、服務等形成針對性的聚攏。這是理解人機交互范式的變革如何改變媒介的一個重要視角。自然交互范式的興起意味著用戶無須再受圖形控件交互可供性的限制,能夠以自然語言的指涉范圍和建構能力形成更為廣闊的信息輸入,使媒介超越個性化的范疇,能夠以極為細微的需求(或語義)為基礎形成資源的聚攏以及與用戶的細密連接。

另一方面,自然交互范式允許媒介以無界的方式融入用戶情境中。正如Valli提出,自然交互是人們通過手勢、表情、動作自然地交流,并通過環顧四周和操縱物理事物來發現世界;這里的關鍵假設是,應該允許他們與技術交互,因為他們習慣于在日常生活中與現實世界交互,正如進化和教育教他們做的那樣。[12]這意味著自然交互范式下的媒介與用戶形成了更加深刻的技術具身關系,從而無感地、系統地增強人類的實踐能力和實踐自由。

二、基于自然交互范式的媒介實踐:雙向預設、場景解析與會話行為

生成式人工智能技術的應用熱潮帶動了自然交互范式的興起,使得以圖形控件交互為特征的媒介應用逐步呈現出新的特征——人們能夠用平日里自然表達的語句與人工智能交流,從而達到自己的目的,不必再將自己的意圖轉譯成指令或高度凝練成詞塊或控件。這種新興的媒介趨向將深刻地影響媒介進化的邏輯。因此,對基于自然交互范式的媒介實踐進行分析是十分必要的。

語用學為分析這種新興媒介實踐提供了一個有效的框架。該學科是與自然語言交互關系最為緊密的幾個學科之一,主要關注“在不同語境中尋找并確立使話語意義得以恰當地表達和準確地理解的基本原則和準則”。[13](15-16)在語用學研究中,一般將會話劃分為語境、指示詞語、會話含義、預設、言語行為和會話結構幾個部分。[13](13)這些要素并不是完全獨立的,在自然交互的過程中,不同的要素不斷交互,表現為一定程度的交織樣態。語用學的框架為分析基于自然語言的自然交互提供了一個有益的框架。在此,本文借助這一框架,將自然交互范式構造下的媒介實踐分為媒介與用戶的雙向認知(對應預設)、媒介的用戶場景解析(對應語境)、媒介與用戶的會話協同(對應指示詞語、言語行為與會話結構)三個部分進行分析(見圖1)。

1. 媒介與用戶的雙向預設:將用戶(媒介)介紹給媒介(用戶)

預設指言語交際過程中說話人對聽話人和自己已有知識的推測,是說話人認為聽話人聽到話語之后總能根據語境或常識等推斷出來的信息。[14]比如“丈夫”或者“妻子”在作為指示詞使用時,其假設是對應人物已婚?;谧匀唤换シ妒?,用戶與媒介交流過程中的預設,呈現為媒介對用戶的預設以及用戶對媒介的預設,這兩種預設均在交互過程中發揮作用。

(1)媒介對用戶的預設。媒介對用戶的預設主要是指在會話開始之初(或在媒介執行任務之前),媒介基于生成式人工智能技術的自然語言處理功能,確定針對每一位用戶的內容生成、資源匹配策略,從而實現自身對交互過程與使用者的預設。媒介對用戶的預設通常涉及對用戶興趣、需求、知識結構、文化背景等方面的假設。諸多生成式人工智能應用已經做出嘗試。比如GPT-4的“Custom instruction”功能允許用戶自行介紹自己,并說明希望GPT扮演何種角色以及如何響應。這種預設會體現在用戶設置后的所有對話之中。此外一些應用也嘗試以問答的形式來獲取更多用戶數據,形成對用戶更個性化、多維化的認知,比如百度的文心一言大模型就采取了問答形式,通過基本的設問獲悉用戶使用習慣與偏好。

目前,媒介對用戶預設的實踐仍然不夠成熟。一方面,僅僅基于文本或語音模態信號進行分析精確度有限。比如僅依靠文本交互很難準確判斷用戶的性別、年齡、文化背景等特征,這與人類交流中依靠多模態信息的融合來構建印象相去甚遠。未來人工智能在接入三維數字虛擬空間的交互情境后,有望獲得更多的識別信號,從而生成更為細膩的內容和服務響應。另一方面,大模型需要哪些用戶數據,如何對用戶數據進行維度化和結構化,如何使用戶更輕松有效地告訴大模型“自己是一個什么樣的人”,這些問題仍然有待相關理論與技術的進一步探索,比如需要考慮不同用戶群體(如老年人、兒童等)數據采集方式的問題,以及不同文化背景的用戶會側重關注哪些方面的自我信息等。

(2)用戶對媒介的預設。用戶在與媒介交互時,也會基于自己的經驗和認知,對媒介可供性、價值傾向、交互方式等形成預期和預設,并相應調整自己的交互策略。例如,首次使用智能助手聊天機器人的用戶可能會默認其只能進行有限的問答,不具備復雜交流的能力。這種預設會導致用戶選擇簡單的提問方式。經過一段時間的互動后,用戶發現聊天機器人可以進行更深入的討論,他們的提問才會逐漸變得更開放和復雜。

學界對這種預設的研究可以追溯至用戶對計算機的社會反應。比如早期部分學者認為擬人化是個體對計算機反應的重要機理。這一觀點認為個體會在本質上認為計算機是人類,即將計算機“擬人化”,因此用戶在與計算機交互時會使用人類社會的交往規范。[15]其后著名的“計算機為社會行動者”范式(the computers are social actors paradigm, CASA)也在諸多實驗證據的基礎上表明,個人會無意識地將社會規則和期望應用于計算機,例如性別刻板印象、種族認同、禮貌、互惠、認知承諾、個性尊重等。[16]這些研究都指向這樣的結論,即用戶在與計算機交往時,即使其不具備自然交互的特征,用戶也不僅僅將其視為無社會屬性的機器,而是在無意識中形成某種預設。

進入生成式人工智能技術時代,一個十分顯著的特征是自然交互范式賦予媒介以具身性的功能角色(見圖2),目前有關具身角色的媒介實踐呈現為兩種思路:

一是媒介應用自身作為具身角色。比如字節跳動的豆包、小米的小愛同學(大模型版)、接入大模型的游戲NPC等,它們直接利用大模型生成對話內容,賦予自身一個具體的角色屬性。這可以幫助用戶更好地建立對媒介的預設,增加交互的代入感。二是大模型自身作為工具并內嵌聊天機器人,這些聊天機器人綁定著具身角色。比如Poe內置的“Chat Assistants”,以及ChatGPT的“My GPTs”都允許用戶使用已經設計好的具身角色或自行創建具身角色。這些聊天機器人配合大模型生成對話,同樣幫助用戶建立預設。相較于沒有具身角色的自然交互,具身角色更有利于減少用戶的使用門檻,引導用戶形成對會話有建設性的媒介預設,從而提升用戶體驗。

2. 媒介的用戶場景解析:通過場景匹配、應用開發、嵌入系統形成會話語境

語境即“運用自然語言進行言語交際的言語環境”。索振羽將語境劃分為三部分,分別為:上下文語境,即存在于語用上下文中的語言因素;情景語境,即除了語言因素外的非語言因素;民族文化傳統語境,該語境關注歷史與國族方面的因素對語言交際的影響。[13](23)語境對于有成效的會話極為重要,它蘊含著對應語境下的行動框架。個體基于既往社交經驗發展出了常見序列行為的知識結構,并將其保留在記憶中。一旦遇到類似情境,這些社交腳本就會被激活,[17]從而指導用戶的會話實踐。因此,清楚的語境可以幫助生成式人工智能更好地預測用戶意圖,做出符合預期的回應。否則就可能出現脫離語境的回答,降低交互效率。

目前諸多媒介實踐是圍繞解析用戶的會話語境而展開的。其中,上下文語境包括對時空特征、主題、文化背景、參與者角色的構建,主要依賴于用戶的提示詞和會話歷史而形成;民族文化語境依賴于預訓練過程中對用戶認知偏好相關語料的訓練以及會話過程中對用戶特征的識別。相較于前兩者,依賴于非語言要素的情景語境是解析用戶會話語境的難點,目前的媒介實踐呈現為以下幾類。

(1)基于專用型媒介所對應的場景形成會話語境。這是一種較為簡單和粗放的路線,不涉及用戶場景性數據的讀取。比如基于生成式人工智能技術的游戲NPC就能準確地匹配其扮演角色和所處情景,與玩家形成會話,為玩家提供沉浸式游戲體驗?;谏墒饺斯ぶ悄芗夹g的導購機器人也可以根據自身所處的時空特征為用戶提供精準推薦服務,提供更人性化的溝通方式。

(2)媒介接入專用型插件(應用)讀取場景數據。通過開發插件,媒介能夠直接匹配用戶場景,并獲取更多細粒度的數據。比如ChatGPT-4已經支持以購物、餐飲、學習為目的的插件;百度的文心一言大模型也正在創建插件生態,提供可視化界面和API接口,支持開發者進行自定義模型與插件開發(見圖3)。用戶在使用專門型插件或應用的過程中定位自身情景,并通過行為數據反映會話語境,幫助媒介更快、更準確地解析所處的會話語境。

(3)將生成式人工智能技術植入計算機操作系統(或應用平臺)采集場景數據。這一策略可以保障媒介讀取用戶場景數據的權限,并可以在對應功能場景下接入智能服務。采用這一路線的包括小米的“小愛同學”語音助手、微軟的智慧辦公應用“Microsoft 365 Copilot”、金山的智慧辦公應用“WPS AI”等。

(4)媒介基于實時聯網的響應。由于生成式人工智能技術的底層模型都由預訓練完成,而會話語境往往具有即時性,因此實時聯網有助于智能媒介識別會話語境。目前百度的文心一言通過接入百度搜索實現實時聯網獲取信息,ChatGPT以及NewBing亦接入Bing搜索等。

3. 媒介與用戶的會話協同:多模態交互與提示工程

媒介與用戶的會話協同主要涵蓋了語用學的三個研究領域,即指示詞語、言語行為以及會話結構。指示詞語將具體的人物、地點、時間等信息簡化,使語言高度凝練。[18]言語行為則是將指示詞語組織成句進行發聲發音、表意行事,并對會話主體產生影響。[13](152-155)會話結構涉及的是語言之外的對話組織方式,包括開頭語、結束語、話輪替換,以及對話中的其他結構特征如插入序列、由受話者打斷發話者話段引發的分岔序列、以及發話者自己的補救辦法等。[19]媒介與用戶的會話同樣包含以上機制,自然交互范式下的媒介實踐也按照以上類別機制展開。

媒介側的媒介實踐主要是基于多輪會話窗口形成的多模態交互方式。除了生成式人工智能技術深度模擬人類認知機制生成的文本模態外,媒介應用也在探索其他模態的交互。目前ChatGPT已經能夠基于“VoiceOver”等插件實現與用戶的高質量語音對話;自定義的GPTs允許用戶上傳自定義的圖像作為頭像,內置的DALL·E模型也可以幫助用戶在任意對話中生成圖像、讀取圖像,從而使基于ChatGPT的交互表現出高度的擬真度和擬人化。在未來,更多模態比如語音、語調、實時表情、動作、姿態等模態也有望成為會話的基礎,并在多輪會話的機制下形成更加全面的可供性。

在這樣的自然交互媒介界面下,如何使用語言或非語言符號有效表達需求是用戶側的關鍵任務,這一工作由于需要提供提示詞,因而也被稱為“提示工程”。提示工程直接影響交互的質量。如果用戶提供的提示模糊不清,生成式模型就難以準確理解用戶意圖。反之,如果用戶提示設計得當,能夠充分利用語言和非語言符號傳達自身目的,生成式模型就能快速捕捉其意圖并作出正確回應。目前大多數用戶尚缺乏提示能力,為此,一些自然交互界面也在探索輔助提示的功能設計,如顯示歷史提示、關聯提示以及提示模板等。

時至今日,自然交互范式已經在智能音箱、智能客服、AI語音助手等媒介實踐中得到彰顯,但其本身仍不完善,需要在技術、法規、倫理、文化等諸多方面調試和落地。盡管如此,自然交互范式所具有的革命性的可供性為媒介融合發展提供了巨大的想象空間,其有望成為未來媒介交互的主流范式,突破現有媒介交互甚至是人際交互的局限,開創人類對外連接的嶄新局面。

三、自然交互范式的實踐進路:初期話語溝通,中期數據匯通,遠期心智融通

本文認為自然交互范式至少存在初期話語溝通、中期數據匯通、遠期心智融通三個主要的發展階段。

1. 話語溝通:初期基于文本模態的自然語言,滿足最基本的交互可供性

(1)自然語言具有基本的交互可供性?!翱晒┬浴备拍钤趧偺岢鰰r強調環境的客觀品質與生物行動的可能性之間的相互協調,[20]隨著理論的發展,可供性已被延展到設計、媒介、新媒體等多個方面,而在自然語言交互中,語言這一承載內容的形式也為人類與機器之間的互動提供了廣泛可能,體現出交互可供性。由于人類與機器的生理及機理構造不同、認知模式不同,人機交互存在障礙。隨著技術的發展,人類與機器可以通過自然語言這一媒介,在交互中達到一種協同狀態。自然語言以最基礎通用的方式在界面中呈現,使人機交互成為可能,讓其得以存在與賡續。

(2)語言交互是自然交互的早期和基礎范式。話語溝通是人與機器交互的基礎模式。在計算機剛問世時,馮·諾依曼所設計的人與計算機溝通的模式是機械地編碼與解碼自然語言的模式:人將自己想要傳達的命令或信息以計算機指令語言的方式表現出來,輸入計算機,計算機再對指令語言進行理解,形成二進制代碼,從而執行相應的操作(比如運算或邏輯處理),輸出以自然語言為表現形式的結果。盡管市面上已經涌現出各式各樣能以不同形式感知人類、理解人類的模型,但直到現在,因語言獨有的特征,最為人們所關注、使用的通用人工智能仍然是ChatGPT、Llama、Claude這種以提示詞語言為交互紐帶的模型。人機交互范式仍然以語言交互為主,這與人際交互的主要方式是一致的。

需要說明的是,基于文本模態的初期自然交互范式主要通過自然語言完成所有交互所需要素的設定,即用自然語言描繪所有的預設、語境、指示詞語、言語行為……人類只有使用模塊化的語言、精準的提示詞才能達到交互目的。這也暴露了當前人機交互中自然語言交互的短板,即人類每次與機器展開交流時,都需要進行過于完整的、相對不自然的敘述才能實現對相應功能的調用,否則可能出現較大偏差。因此,初期的基于文本模態自然語言的自然交互范式表現為“可用”,而非“好用”,與用戶熟悉的人際交流仍有較大差距。

2. 模態拓展與數據匯通:中期極大縮短人機協同的邏輯鏈條,實現人際交往的基本模擬

為了彌補媒介自然交互范式發展初期對人類交往的模擬不足,促使媒介產品從“能用”變為“好用”,自然交互范式在中期更加強調交互信息模態的拓展以及交互數據的融匯,以更加精確地識別人機交互環境中的非語言信號,從而極大縮短人機協同的邏輯鏈條,實現人際交往的基本模擬。

(1)話語溝通的局限性。除了自然語言交互在人機交互中體現出的不足,我們還需要認識到話語溝通模式本身的局限性——人際傳播中的話語溝通應當是多感官、多模態的。語言符號學家艾伯特·梅拉比安為此提出了一個公式:傳播信息達到相互理解=語調(38%)+表情(55%)+語言(7%)。[21]由此可知,目前人際交互中僅停留在界面上的文字式語言溝通,遠遠沒有使人機交互達到充分理解的程度。盡管現在計算機領域已經開始關注語音識別的相關分支,如語音情感識別,[22]但目前在人機交互的應用中相關技術還略顯單薄。交互的過程除了調動視覺與聽覺外,還應存在其他的要素在其中發揮作用,如交互主體的姿態與動作可以調動觸覺,具身交互可以實現更多感官的調動甚至是融合,感官的調動激發又與主體內生的情感、所處的外在環境相聯系,這些都為人機交互未來的發展提供了可能。

(2)拓展交互模態。媒介在人機交互發展中期需要拓展更多的交互模態以輸入更多要素、產生更細膩的連接、形成更高水平的可供性。在這一層面,技術需要對自然交互中的情緒進行拆解,通過面部表情特征提取、語音情感特征提取等技術,完成對多模態情感的識別;[23]同時,需要對自然交互中的非語言符號進行拆解,通過人臉跟蹤、姿態跟蹤、語音識別等技術,[24]最大限度地理解用戶在交互中傳達出來的有意識或無意識的信息。最后,機器需要通過特征級融合或者決策級融合或者混合融合的方法,完成對人機交互多模態信號的融合,以實現數據的整合分析,[25]得出更加精準的分析結果并以恰當的方式輸出,從而使用戶與人工智能能夠進行更加深入的交互。

(3)通過數據與算法的融匯極大縮短人機協同的邏輯鏈條。有學者結合語義三角形模型,提出了基于語義三角形的自然人機交互模型。[26]如圖4所示,用戶與計算機具備相同的概念體系,并且計算機能直接完成對用戶界面設定的符號表示(LH)或具象呈現(OH)的識別,并將其轉化為計算機概念(GC)。

實現如上交互方式的重要前提是實現人機交互的概念共享、認知共通。首先在大模型的產業層面,用戶或模型訓練者需要提供非常充沛的、專業的預訓練材料,完成大模型或者機器本身對場景、語境、社會慣習、社會文化等非言語符號的認知塑造,從而避免用戶在交互時對機器進行背景闡述或角色塑造。此外,目前OpenAI、Meta、Google等互聯網公司都在改進并創新運用微調、神經網絡、強化學習等多項人工智能技術,投入制作插件與AI原生應用的工作中,完成對大模型的拓展,以進行更高效更自然的信息讀取與理解,甚至形成對用戶的個性化感受。

自然交互范式中期發展本質上是對人類交往方式的進一步模擬,正如熟人彼此交談一般不需要問及各種細枝末節的預設或情景信息,處于自然交互范式中期的用戶與媒介交往也將不再依賴繁重的提示工程,而是媒介能夠敏銳地捕獲用戶多模態的、內隱的非語言信號,促使人機協同的邏輯鏈條進一步縮短,人機協同的體驗進一步趨向人際傳播或人際交流。

3. 心智融通:超越語言局限以觸達心靈

即便基于自然交互范式的人機交往能夠不斷接近人際交往的自然體驗,但其始終存在一個根本性問題——就如人際交往一般,交往主體在充分交流后可能依然難以理解彼此。這是由于語言本質上并不能完全反映心靈,這就容易導致同一指示物在不同的交互體系下有著偏離甚至相反的指稱,或者在同一環境下,一種指稱可能指向多個指示物。同時,語言是片面的,自然語言對話反映了一個人的結構,但它無法支撐起一個人的完整角色,[27]這加大了人被誤解的可能。這種情況在人際傳播中非常常見,會引起傳播失效。

目前的人工智能從本質上來說是一種基于概率的很生硬的智能,而人類智能是一種相對比較精致、細膩、復雜的智能。不論是人類智能與人工智能之間的交互過程,還是從人工智能過渡到人類智能甚至更高維度的進化,都缺少了一個中間態的、連接與調度的接口,這個接口決定了人類如何調度和使用機器智能。

因此,媒介或人工智能仍然需要一次重要的技術革命,以實現人與機器的“心有靈犀”。這種技術革命需要一種全新的、呈現為硅基文明的技術基座,而不是簡單地運用通過計算和概率實現的大模型。有研究認為,信息作為高層次基礎的感受性關系,是智能的根本基礎。[28]因此我們可以設想,在硅基文明創造的賽博格世界里面,人類可以完全擺脫身體束縛,接入網絡系統,一切都是信息的傳播,[29]一切也都成為數字化的意義交換、心智流動。此時,在與硅基系統持續不斷的適配過程中,生命的“含硅量”不斷上升,[30]人機融合的形態逐步浮現,智能成為人類的延伸。

在通用智能、賽博格化的世界,人類智能與人工智能的相互作用完全可以如現實一般,甚至因為新技術突破了交互形式的局限而超越現實,以數字化的心靈相通達到心流狀態。[31]硅基智能的最大優勢是碳基智能無法比擬的進化速率,[28]因此人類與人工智能心智融通的時候,時間是非常短暫的,但由于用戶極其投入在這種狀態中,所以感覺不到時間的流逝。從這層意義上講,用戶心流狀態可以作為一個心智融通狀態的關鍵評量指標。

結語

伴隨著生成式人工智能技術的迅猛發展,傳統人機交互中廣泛排布的控件、模塊乃至圖形交互界面逐漸被消解,自然交互范式被引入人們的媒介生活,通過多模態的感知、智能代理交互、知識處理、可視化的顯示,機器與人類已經幾乎能夠實現與人際傳播同等維度的交互。[32]“非受限性”成為新型人機交互技術的主要特性,即機器給人以最小的限制并對人的各種動作做出反應,人是主動參與者,可以自由地操作機器,就像日常生活中人與人之間的交流一樣自然、高效和無障礙。[33]這是媒介交互范式的重大進步。

這種媒介交互范式的革命將驅動整個媒介生態和人機關系的改變。正如麥克盧漢將媒介稱作“人的延伸”,媒介是人類對外實踐的中介,當中介的模式從圖形控件交互轉變為自然交互,這意味著人機交流與協同走向全新范式,意味著筑建于原有范式基礎上的傳播樣態、人機關系也將迎來嬗變。在這種變局中把握人機關系,把握媒介演進的關鍵邏輯,將成為未來傳播研究的重要課題。

參考文獻:

[1] 董士海. 人機交互的進展及面臨的挑戰[J]. 計算機輔助設計與圖形學學報,2004(1):1-13.

[2] 馬衛娟,方志剛. 人機交互風格及其發展趨勢[J]. 航空計算技術,1999(3):16-20.

[3] 喻國明,蘇健威. 生成式人工智能浪潮下的傳播革命與媒介生態——從ChatGPT到全面智能化時代的未來[J]. 新疆師范大學學報(哲學社會科學版),2023,44(5):81-90.

[4] 史安斌,劉勇亮.聊天機器人與新聞傳播的全鏈條再造[J]. 青年記者,2023(3):98-102.

[5] Glonek G, Pietruszka M. Natural user interfaces (NUI): review[J]. Journal of Applied Computer Science, 2012, 20(2): 27-45.

[6] 范俊君,田豐,杜一,等. 智能時代人機交互的一些思考[J]. 中國科學:信息科學,2018,48(4):361-375.

[7] 維特根斯坦. 邏輯哲學論[M]. 賀紹甲,譯. 北京:商務印書館,2019:132.

[8] 郭全中,袁柏林. AI能力新突破下的AIGC:內容生產新范式[J]. 青年記者,2023(13):66-69.

[9] 陳嘉映. 語言哲學[M]. 北京:北京大學出版社,2003:184.

[10] 崔鳳娟,苗興偉. 語用學的哲學維度[J]. 外語學刊,2007(4):67-72.

[11] 盛曉明. 話語規則與知識基礎——語用學維度[M]. 上海:學林出版社,2000:87-88.

[12] Valli A. The design of natural interaction[J]. Multimedia Tools and Applications, 2008, 38(3): 295-305.

[13] 索振羽. 語用學教程[M]. 北京:北京大學出版社,2004.

[14] 北京大學外國語學院語言學研究所. 語言學研究(第三輯)[M]. 北京:高等教育出版社,2004:67.

[15] Stephen·R. Barley. The Social Construction of a Machine: Ritual, Superstition, Magical Thinking and other Pragmatic Responses to Running a CT Scanner[M]//Lock M, Gordon D.Biomedicine Examined. New York: Springer, 1988: 497-539.

[16] Nass C, Moon Y. Machines and Mindlessness: Social Responses to Computers[J]. Journal of Social Issues, 2000, 56(1): 81-103.

[17] 徐琦. 超越“計算機為社會行動者”范式:智媒時代人機傳播理論創新的突破點[J]. 現代傳播,2023(6):160-168.

[18] 劉森林. 語用策略與指示詞語[J]. 解放軍外國語學院學報,2004(6):21-24.

[19] 祝畹瑾. 社會語言學概論[M]. 長沙:湖南教育出版社,1992:173.

[20] Gibson·J. J. The ecological approach to visual perception[M]. Boston: Houghton Mifflin, 1979: 127.

[21] Mehrabian A, Ferris·S.R. Inference of Attitudes from Nonverbal Communication in Two Channels[J]. Journal of Consulting Psychology, 1967, 31(3): 248-252.

[22] 王怡,王黎明,柴玉梅. 融合多特征的語音情感識別方法[J]. 小型微型計算機系統,2022,43(6):1232-1239.

[23] 何俊,劉躍,何忠文. 多模態情感識別研究進展[J]. 計算機應用研究,2018,35(11):3201-3205.

[24] 楊明浩,陶建華,李昊,等. 面向自然交互的多通道人機對話系統[J]. 計算機科學,2014,41(10):12-18,35.

[25] 張亞洲,戎璐,宋大為,等. 多模態情感分析研究綜述[J]. 模式識別與人工智能,2020,33(5):426-438.

[26] 劉勝航,陳輝,朱嘉奇,等. 基于語義三角形的自然人機交互模型[J]. 中國科學:信息科學,2018,48(4):466-474.

[27] Gaines·B. R, Shaw·M. L. Foundations of dialog engineering: the development of human-computer interaction. part ii[J]. International Journal of Man-Machine Studies, 1986, 24(2): 101-123.

[28] 王天恩. 論廣義智能進化[J]. 江漢論壇,2023(4):5-12.

[29] 劉海龍. 傳播中的身體問題與傳播研究的未來[J]. 國際新聞界,2018,40(2):37-46.

[30] 劉濤,湯志豪. 死亡的媒介化配置:賽博格與數字資本主義的生命政治[J]. 湖南師范大學社會科學學報,2023,52(3):112-122.

[31] Csikszentmihalyi M, Csikszentmihalyi·I. S. Optimal experience: Psychological studies of flow in consciousness[M]. New York: Cambridge University Press, 1988: 3.

[32] 袁保宗,阮秋琦,王延江,等. 新一代(第四代)人機交互的概念框架特征及關鍵技術[J]. 電子學報,2003(S1):1945-1954.

[33] 杜廣龍. 面向多自由度機器人的非受限智能人機交互的研究[D]. 廣州:華南理工大學,2013.

Media's Natural Interaction Paradigm and Practical Approaches in the Generative AI Era: An Analysis Based on the Perspective of Pragmatics

YU Guo-ming, SU Jian-wei, HUANG Zhe-hao(School of Journalism and Communication, Beijing Normal University, Beijing 100875, China)

Abstract: An important characteristic of the generative artificial intelligence era is that natural interaction is gradually replacing graphical control interaction as the mainstream paradigm in human-computer interaction. Its impact on media communication lies in enabling media to transcend the realm of personalization and form resource aggregation when intricating connections with users based on highly granular needs on the one hand; on the other hand, allowing interaction paradigm media to integrate seamlessly into user contexts. There are three main stages for the development of natural interaction paradigm: initial discourse communication, mid-term modality expansion and data convergence, as well as long-term mental integration, which is essentially a process for the natural interaction paradigm evolving from simulating human communication to transcending it.

Key words: generative artificial intelligence; human-computer interaction; natural interaction; media practice

猜你喜歡
人機交互
某型柴油機虛擬維修系統研究
基于虛擬現實技術的九江城市交通事故模擬系統設計
人機交互課程創新實驗
基于任務規劃的家庭仿真服務機器人的研究
多點噪聲遠程自動采集系統設計
基于智能手機的盲人語言應用軟件的設計與開發
基于Intel Realsense技術的感知展示系統的設計與開發
圖像處理耦合模板定位的答題卡識別研究與應用
數字化控制系統人機交互的特征及預防人因失誤策略
基于物聯網家居安防系統的設計
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合