?

政務智能問答系統評價指標體系構建與測評問題編制

2023-12-21 10:58王芳魏中瀚連芷萱
圖書情報知識 2023年6期
關鍵詞:指標體系智能指標

王芳 魏中瀚 連芷萱

1 引言

隨著數字政府建設的深化,越來越多的行政部門開始采用人工智能(AI)技術改善公共服務[1-3]。截至2022年3月底,全國各省級政府門戶網站或隸屬的政務網站均已依托AI技術設置自動問答系統[4-5](港澳臺除外,下同)。初步調研發現,各省級政府網站的智能問答系統表現參差不齊,超過半數的客服無法有效答復隨機測試問題,延長了用戶等待時間。根據行政負擔理論,采用智能問答技術的目的是提高行政效率,降低公眾承受的行政負擔,但是“數字政府并不必然會降低行政負擔,甚至在某些情況下還會加重一些群體的行政負擔”[6]。政務問答系統語義理解能力的不足,影響了問答服務的智能化水平,在一定程度上給用戶帶來新的行政負擔。為了提高行政效率,有必要對政務智能問答系統展開評價研究,了解其存在的問題,并提出應對策略。

目前,一些研究在政府問答系統測評方面進行了探索。其中,大部分研究以答案的準確率[7]、召回率、重復率等指標來衡量系統性能,有助于提高預設答案與問題的匹配能力,但是并不能引導提高系統理解用戶需求的能力。如果知識庫中的預設答案與問題應用場景的契合程度較低,即使是高精度的問答匹配能力也無法滿足用戶的主觀需求。另外,現有研究提出的準確率、答案定性分類等指標雖然能夠在一定程度上反映政務問答系統的語義理解能力,但是尚未形成系統性的評價指標體系與測評題目。為此,本文基于理論分析、文獻回顧以及典型案例研究,提取與政府網站智能問答系統相關的評價指標,建立一套面向語義理解能力的評價指標體系,同時構建配套測試問題集,并通過對我國省級政府網站智能問答系統的實際評價檢驗指標體系和測試題集的有效性。

2 理論基礎與文獻回顧

2.1 行政負擔理論

行政負擔是指公民在與政府互動過程中面臨的學習成本、心理成本和合規成本,在一些情況下,這種負擔被用作政策工具[8-10]。20世紀70年代,學術界開始將行政負擔與“官僚主義遭遇”(bureaucratic encounters)結合起來[11]。近年來行政負擔被闡述為個人與行政組織交互時[9,12]產生的繁重體驗[13]。其中,學習成本指公民為了享受某項行政服務不得不學習該服務相關的程序、文本等,如“如何獲取該服務”,可以通過目標人群對某個項目缺乏了解的情況推斷出來[9];心理成本是指公民在享受政府服務時的不適感,如參加某個不受歡迎的福利項目[9]、沒有便利設施的等候空間[14]、被認為沒有價值的個人等待時間[15],以及行政人員服務水平或態度帶來的困惑、焦慮、沮喪、憤怒等;合規成本指用戶因使用政府服務不得不付出請假、通勤等成本,比如參與面談、培訓所付出的時間成本[16]。Schaffer和Huang在行政負擔理論的基礎上提出“準入理論”[17-18],將公民獲得行政服務的“門檻”過程化,論述了包括申請、交互、等待、審批等多個步驟和“準入”的組織規則。

行政負擔會加劇社會不平等,繁瑣程序會破壞政治效力和公民參與,為了降低行政負擔,政策制定者需要降低目標對象的學習和合規成本,并以最小的心理成本構建互動[8]。廖福崇提出通過簡政放權、放管結合、優化服務來消解行政負擔[8]。為了減輕個人與行政組織交互過程中承受的行政負擔,一些政府機構在其網站上設置了智能客服作為改善公共服務的輔助手段。但是此類設置是否真正降低了行政負擔,還是又增加了新的數字負擔,這還依賴于智能問答服務的質量,尤其是基于系統語義理解能力的對話質量和問題解決能力。因此,根據行政負擔理論和門戶網站的“準入”流程,可以從中“逆推”出一些評價指標,如系統的問題解決能力、性能、智能、界面設計,以及信息的準確性等。

2.2 政務信息服務質量評價

政務智能問答本質上是一種政務信息服務。信息服務是一種通過研究用戶、組織用戶、組織服務將有價值的信息傳遞給用戶,最終幫助用戶解決問題的服務活動[19]。一些研究通過對信息服務要素的拆解建立相應的評價體系,如胡昌平[20]借助ISO9000質量標準建立了信息服務技術質量認證指標體系,包括服務技術條件與設施質量、服務過程質量、服務效用質量三個維度,分別評價信息服務的基礎建設、系統交互與信息質量三個方面。政務信息服務是指政府部門通過官方媒體、政府網站、行政許可中心、圖書館、檔案館多種渠道滿足公眾信息需求的活動,包括信息告知、主動信息公開、依申請公開、數據開放等方式。王芳等構建了地方政府網站信息公開的評價指標體系,包括公開內容、公開方式、監督保障、信息安全、信息組織、信息表達方式、互動交流等七個維度[21];之后又從用戶視角構建了政府數據質量評價指標體系,包含數據源、數據集、數據環境三大維度和可靠性、規范性、真實性、準確性、適配性等15個指標[22]。

2.3 智能問答系統測評研究

問答服務廣泛應用于電子商務、知識社區、醫療健康等場景,主要包括以機器智能為主的智能問答和以人類智能為主的社區問答兩大類。政務智能問答系統的主要功能是為公眾提供政務信息咨詢服務,其評價不僅涉及信息服務質量評價、智能問答系統測評,而且也有必要借鑒社區問答系統(例如知乎)評價和電商平臺智能客服評價的相關研究成果。

(1)智能問答系統測評

“智能問答系統”測評研究最早可追溯至上世紀50年代的“圖靈測試”[23]。經過半個世紀的發展,針對智能系統的測評可分為問題解決能力、回復質量、用戶易用性、場景適用性四個方面。

在問題解決能力方面,1999年舉辦的TREC(文本檢索會議)首次引入“問答測評”(簡稱QAtrack)環節以測評檢索系統的問題解決能力。QAtrack將MRR(Mean Reciprocal Rank,是將標準答案在系統給出結果中的排序取倒數作為它的準確度,再對所有問題取平均得到的指標)、準確率(Accuracy)、置信權重分數(CWS)作為主要評價指標。吳友政等據此建立了漢語問答系統測評平臺(簡稱EPCQA),采用MRR、事例召回率、事例準確率、片段召回率以及片段準確率等指標來測評問答系統的性能[24]。Noraset等基于維基百科知識庫構建了能夠回答泰語問題的問答系統“WabiQA”,主要指標有準確率、召回率以及F1值[25]。

在回復質量方面,問答系統評價常常借用機器翻譯的評價指標。例如2002年IBM研發的BLEU系統以詞重疊度來測評回復生成質量,認為回復語句與參考答案之間的詞語共現次數越多則回復生成質量越高[26]。在BLEU基礎上改進的METEOR系統,運用WordNet計算特定的序列匹配、同義詞、詞根和詞綴、釋義之間的匹配關系作為測評指標[27]。在詞重疊度的基礎上,也有學者通過計算詞、句相似度來測評回復生成質量,如Greedy Matching、Embedding Average、Vector Extrema等基于詞向量的方法[28]和句子語義相似度方法[29]。

在用戶易用性方面,騰訊AI Lab的李菁等人構建了一個大規模人工標注中文對話數據集,而后邀請專業人員根據系統回復的相關性、連貫性、信息性、趣味性等指標對文本數據進行五級評分[30]。Roque等借助可用性測試量表,邀請17位醫護人員與患者對智能問答系統所回復的傷口處理相關信息質量進行評價,指標主要包括學習性、效用性、記憶性、容錯性以及滿意性[31]。

在場景適用性方面,Diekema等對航天工程問答系統進行了多維度評價,指標包括系統性能(速度、可靠性)、答案質量(完整性、精確性、相關性等)、數據庫內容(數據源質量、規模、時效性)、用戶交互(文本理解能力、問題格式化能力等)和用戶期望[32]。顧麗燕等根據用戶滿意度、運營狀況、智能水平和技術先進性4個維度對不同的智能客服機器人進行了場景對應評價,其中用戶滿意度指標包含問題解決率以及答案滿意率,兩指標均需用戶主觀評價[33]。

(2)電子商務智能客服相關研究

電子商務智能客服得到較為深入的研究,尤其是用戶視角的實證研究,可以為政務智能問答服務評價提供借鑒。王旭勇從客服管理投入的視角構建了企業智能客服評分指標體系,包括客服服務投入程度、客服服務知識管理水平、新型技術應用等維度[34]。宋雙永等提出智能客服在解決客戶高頻業務問題的同時,也需要提供類人服務以提高客戶整體滿意度,包括用戶情感檢測、用戶情感安撫、情感生成式語聊、客服服務質檢、會話滿意度預估和智能人工入口[35]。宋倩茜與馬雙發現,隨著技術的不斷升級,人工智能在反應速度、回答問題的準確性上有很大提升,在功能價值和體驗價值方面與人工客服的差距正在變小,但在給予顧客情感價值方面仍有較大差距[36]。吳薇等發現擬人化、AI精確性、AI靈活性、AI及時性和AI可靠性可提升消費者的認知滿意度或服務績效確認[37]。吳繼飛等發現,消費者認為智能客服在不確定性高的需求狀態下更缺乏能力,進而導致智能客服厭惡效應,通過賦予智能客服應對不確定性能力的策略,可以有效削弱厭惡效應[38]。

(3)社區問答服務測評

社區問答平臺的回復者主要是掌握專業知識的個人,目前也在嘗試使用智能客服,其信息質量受到問題本身及回復者等多方面因素影響。社區問答研究中關于回復信息質量的評價指標對于本研究有一定的借鑒意義,比如:李翔宇等[39]構建的社區問答回復質量評價指標體系中的內容維度與認知應用維度;沈洪洲等[40]發現文本長度、情感強度、標記數量三個指標與用戶滿意度正相關;沈旺等[41]提出的社會化問答信息可信度評價模型包含的信息源、信息內容和結構、媒介三個維度。Zhu等[42]針對Answerbag構建的回復質量評價指標體系,包含簡明性、易讀性、完整性、相關性、真實性、文明性和信息量七個指標;鮑時平[43]從文獻中歸納出社會化問答平臺質量評價體系,包含平臺設計、平臺運行、信息內容、信息服務四個維度和16個三級指標。

2.4 政務智能問答系統的語義理解能力

智能問答系統可分為開放領域問答系統和限定領域問答系統[44]。開放型智能問答系統不限制對話主題范圍,如ChatGPT、“小度”聊天機器人、科大訊飛聊天機器人等;而限定領域問答系統則主要為提問者解決特定領域的問題,如訂票助手、電商客服等。與ChaGPT等聊天機器人相比,限定領域問答系統對于專業性和準確性都有更高的要求。政務智能問答系統是一類針對公共服務事項的限定領域問答系統。例如,哥倫比亞政府采用FAQ文檔庫、本體擴展詞、語義網以及EuroWordNet等技術為公眾提供政務咨詢[45];廣州市政府信息化中心推出的智能服務機器人云平臺系統,可以實現多輪會話以及模糊問題引導[46]。

政府網站的目標用戶覆蓋面廣泛,受教育水平、信息素養以及對政府事務的了解程度各不相同。為降低用戶使用政府網站智能問答系統的行政負擔,需要不斷提高系統的語義理解能力。智能問答系統涉及自然語言理解(NLU)、狀態跟蹤器、對話策略、自然語言生成(NLG)等技術[47]。其中,NLU是體現問答系統語言與邏輯智能的關鍵,其下游任務有檢索、問答等[48-49]。NLU技術包括共指消解、命名實體識別、文本推理、情感感知、知識推理等多種任務[50]。在政務智能問答實踐中,用戶的知識背景與表達習慣存在個體差異,最終輸入到問答系統的語句具有明顯的口語化特征[51]。這些口語化的語言表達不一定符合邏輯和語法規則,而且摻雜了許多無用詞匯,為智能問答系統的答疑制造了障礙。

衡量系統是否真正理解用戶意圖的最直接標準是在接收用戶信息后能否通過反饋答案達到用戶的指定目標[52]。政府網站智能客服系統的主要目的是理解和滿足用戶的政務咨詢需求,因此需要具備同義文本理解、上下文感知、自動糾錯、多語種翻譯等能力。王友奎等[4]采用模擬用戶的方法,利用測試關鍵詞與問句對我國政府網站問答系統的知識儲備進行了測評,發現整體上仍處于起步和摸索階段。為了進一步評估政府網站智能問答系統的語義理解能力,本研究依據系統對不同類型語言問題的解答情況來判斷其語義理解能力。由于各網站后臺對所采用的自然語言理解技術進行了加密管理,無法得到具體的技術細節,因此本文將按照語言學規則編制相應問題,通過不同類型的問題測試結果反推政府網站智能客服的語義理解能力。

3 政府網站智能問答系統評價指標體系構建

評價指標體系的構建過程一般包含指標提取、指標體系構建、指標權重確定、評價測試四個階段。政府網站智能問答系統的評價指標來源主要為文獻分析和案例研究。首先,對相關文獻和理論進行分析,從中提取相關指標(見表1);其次,對省級政府門戶網站的智能問答系統進行初步調查,根據試用體驗選擇3個系統進行案例分析,提取可用指標;再次,借助德爾菲法,根據各指標內涵進行取舍合并和歸納分層;第四,運用AHP層次分析法、專家調查、小組討論等方法確定各指標權重;第五,構建部分指標的測試題集;最后,對指標體系進行評價測試。

3.1 政務智能問答系統評價相關指標提取

3.1.1 文獻指標提取

通過文獻分析初步選取24個指標,根據指標的隸屬關系將其劃分為系統、信息、用戶三大類,如表1所示。

3.1.2 案例指標提取

為進一步貼合政務咨詢的應用場景,對現有30個省級政府網站的智能問答系統進行試用體驗,對表現優異的系統進行案例分析,將其服務功能轉化為評價指標。根據準入理論,按照“使用前-使用中-使用后”的順序記錄試用體驗。依據試用結果,選取上海(政務助理小申)、浙江(智能客服小浙)、廣東(智能問答平臺)三個便捷性高、服務意識強的系統作為典型案例。通過對案例系統試用記錄進行編碼分析提取評價指標,如表2所示。

表2 案例指標提取Table 2 Extracting Indicators from Cases

3.2 基于行政負擔理論的指標分析

政府利用數字技術的目的是通過自動化、智能化、替代等具體方式降低公民行政負擔,但如果技術使用不當也會導致行政負擔不降反升[6]。為降低用戶使用政務智能問答系統的學習成本,系統需要快速、準確地理解用戶含糊、不完整或不準確的提問;為降低用戶因使用系統的合規成本,需要盡可能縮短系統反應時間,提高交互效率;為降低用戶的負面情緒與心理成本,需要通過友好、人性化的交互設計和富有情感的信息表達改善用戶體驗?;谛姓摀碚搶υu價指標進行分析和歸納,結果如表3所示。其中,上下文感知、同義理解、自動糾錯、多語種翻譯等指標反映了系統的語義理解能力。

表3 基于行政負擔理論的指標分析Table 3 Indicator Analysis Based on the Theory of Administrative Burden

3.3 指標分層

用戶向智能問答系統提問的過程實質上是人機交互的過程,因此對問答系統的評價應該在關注語義理解能力的同時,關注用戶體驗。將所提取的指標進行整合、取舍和分層,最終形成以降低用戶行政負擔為目標的“問題解決質量”“服務交互質量”與“基礎建設質量”三大維度,如圖1所示。其中,“問題解決質量”最為核心,旨在降低用戶的合規成本,對應了回復信息的質量與效率;“服務交互質量”對應用戶與客服的交互過程,用于衡量系統的交互能力,旨在降低用戶的學習成本和心理成本;“基礎建設質量”用于衡量系統建設情況,旨在降低用戶的學習成本、心理成本和合規成本。其中,B1問題解決質量與B3基礎建設質量都需要系統的語義理解能力給予支撐。

圖1 政府網站智能問答系統評價維度Fig.1 Evaluation Dimensions of the Intelligent Q&A Systems on Government Websites

3.4 指標權重確立

權重可以有效衡量各指標對于評價總目標的貢獻程度,體現評價的價值導向作用[56]。本文結合層次分析法(AHP)和專家調查法確定一級指標和二級指標的權重,三級指標權重則通過案例分析與小組討論予以分配。

3.4.1 專家調查

運用層次分析法(AHP)建立指標遞階層次結構,通過 Saaty 的“1-9 標度法”構建判斷矩陣,邀請相關專家對各層次要素進行兩兩比較評分。評分專家來自高校電子政務或信息系統領域、政府信息化或業務部門以及互聯網企業產品業務領域。共計發放專家調查表24份,收回20份。利用在線分析軟件SPSSPRO對20位專家構建的80個判斷矩陣進行一致性檢驗,有14位專家的評分通過了一致性檢驗,通過率達70%,表明由此確定的權重值可行性較高。

3.4.2 權重計算

以14份有效調查結果計算指標權重。首先,計算14位專家權重評分的算術平均值,得到層次單排序結果。通過加權得到最終的層次總排序計算結果,如附錄1所示。三級指標涉及特定領域的問題與功能,在專家尚未對實際政務問答系統案例進行分析時,難以對細化指標權重做出合理賦值,所以采用案例分析與小組討論的方式確定三級指標的權重。在此過程中,3名討論小組成員均為南開大學政府大數據課題組成員,該課題組具備15年以上電子政務領域的理論研究基礎與實踐調查經歷。在正式討論之前,3名小組成員分別挑選了10個省級政府網站中的智能客服系統進行深度試用體驗,結合專業知識根據不同的表達習慣對五種類型的問題進行初步測試,同時記錄各系統的附加功能情況。在試用結束后,3人將試用情況匯總,進入集體討論環節。討論結果認為應當結合系統的實際表現與問題類型出現的頻率,對C1對應的五個三級指標進行權重確定,討論過程如表4所示:

表4 小組討論分析過程Table 4 The Process of Group Discussion and Analysis

考慮到糾偏能力以及交互回復能力雖然能更好地體現系統語義理解能力,但在實際的案例體驗中小組成員發現多數系統語義理解能力不強,若將錯誤型、省略型問題權重設置過高將拉低整體測評水平。最終,將C1的三級指標權重做如下排序:高頻型問題>同義型問題>錯誤型問題>省略型問題=英文型問題。同時,通過對不同問題個數的設置進行指標權重的區分:共設置問題100個,其中高頻型問題60個,同義問題20個,錯誤式問題10個,省略式問題5個,英文問題5個。

在指標C3“信息質量”中,基于目的性和效用性原則,3位成員均認為信息完整性遠比信息規范性重要,外加在本研究中完整性指標比規范性指標更具可測性,故將完整性權重設置為80%,規范性權重設置為20%。

在指標C7“功能建設”中,小組成員認為“地區導航”與“熱點服務”分別有利于用戶具體化、便利化解決問題,故兩者權重可劃為等同,而具備使用說明對于用戶使用系統起到重要的引導作用,可以減少用戶的試錯成本,其重要性同樣不可忽視。輸入聯想功能雖然可以幫助用戶快速輸入問題,但該功能屬于“錦上添花”型功能,系統若不具備,用戶可以手動錄入?;谏鲜隹紤],作者將“具備使用說明”“地區導航”“熱點服務”三者權重均設置為30%,“輸入聯想功能”設置為10%。

在指標C8“系統性能”中,運行穩定性強的系統可以保障用戶的交互體驗,終端兼容性強的系統可以允許用戶在移動設備中進行提問,二者難分伯仲,故將其權重均設置為50%。

最后,二級指標C2、C4、C5、C6、C9下各僅包含一個三級指標,故直接繼承上級指標權重。由此,全部指標權重設立完成,形成完整的政府網站智能問答系統評價指標體系,共計3個一級指標,9個二級指標和18個三級指標,如表5所示。

表5 政府網站智能問答系統評價指標體系Table 5 The Evaluation Index System for Intelligent Q&A Systems on Government Websites

4 測評問題的編制

如表5所示,問題解決質量是問答系統評價的首要目標,而語義理解能力則是提高問答系統問題解決質量的關鍵所在。在進行實際測評的過程中,問題解決質量維度的指標主要通過構建測試題集進行客觀評分。為了從同義文本理解、自動糾錯、上下文感知、多語種翻譯等多個方面測評智能客服的語義理解能力,構建五種不同類型的問題,包括高頻問題、同義問題、錯誤式問題、省略式問題和英文問題五類。服務交互質量和基礎建設質量兩個維度的評分主要是評分者在測評過程中,通過觀察、測試和分析比較進行評分。

4.1 高頻問題的編制

本文將“高頻問題集”定義為含有高頻政務事項主題詞的標準化問句集合。因無法獲取各系統后臺的知識庫數據,也難以窮盡公民的全部咨詢事項,因此通過獲取高頻政務事項主題詞的方式構建政務咨詢問題,從對高頻問題的解答質量來推斷系統知識庫儲備的豐富程度。高頻問題集的制作思路如下。

首先,使用八爪魚數據采集軟件,爬取山東、江蘇、上海、貴州等26個省級政府網站的公民留言板、市長郵箱共7,632條原始數據,剔除空值及字符數小于3的文本后,保留7,021條數據。隨后利用“微詞云”在線分詞工具對7,021條數據進行分詞處理并構建詞庫。與此同時,選取23個具備問題推薦模塊的政府網站智能客服系統,通過人工下載的方式獲取全部推薦問題文本,進行分詞處理并構建詞庫。通過人工篩選的方式去除無實義動詞和名詞。將兩個詞庫中的高頻政務詞語進行對比,重復率接近75%。由此判斷,政府網站上公民留言的高頻問題與智能客服推薦的用戶常問問題具備較高相似度,利用公民留言的政務詞語進行問題編制具備代表性和一定的補充作用。

按照詞頻將最高頻的60個主題詞作為問題構建的關鍵詞。隨后,將60個關鍵詞作為查找項分別在國務院提出的全國高頻政務服務事項清單、濟南市100項高頻事務清單等7份高頻政務事項清單中進行對比,重合率接近88%,以此對高頻詞選擇結果進行二次驗證。提取高頻事項清單中的對應事項,改編成高頻問題集,排名前21的高頻問題見表6。

表6 排名前21的高頻問題匯編表Table 6 The Top 21 High-frequency Questions

4.2 同義問題編制

因不同用戶存在知識水平與表達方式的差異,外加部分系統不能提供規范的提問句式,因此有必要模擬這類應用場景進行同義問題的編制。根據用戶對咨詢事務描述的清晰程度進行同義改寫,將其劃分為表述清晰、表述欠妥、表述模糊三個等級:

(1)表述清晰的問題:表現為用戶可以明確具體的辦理事項,同時能夠用精簡的語言表述自己的咨詢需求,上文中編制的標準化高頻問題均屬此類。然而在實際中,用戶往往因用詞習慣不同,易將同義不同形的術語或概念使用到提問中,但其目的均是對相同問題進行發問[57]。在政務事項中,該現象主要集中在政務名詞或動詞的同義替換方面,如:Q1:“怎樣申領建筑施工企業安全生產許可證?”與Q2:“怎樣申領建筑施工企業安許證?”,兩問句的區別在于“安全許可證”與“安許證”,后者為前者簡稱,兩者形異義同。再如Q3:“如何補交住房公積金?”與Q4:“如何補繳住房公積金?”,兩者的差別在于實義動詞“補交”與“補繳”形異義同。

(2)表述欠妥的問題:表現為用戶知悉要辦理的政務事項,但用詞構句欠妥。例如Q5:“非機動車如何登記?”與Q6:“電動自行車如何登記?”,Q5的“非機動車”與Q6的“電動自行車”為包含關系,但用戶可能會根據自身實際情況使用“電動自行車”進行提問。

(3)表述模糊的問題:表現為用戶僅僅明了自身問題,但無法清晰表達該問題對應的政務事項。如Q7:“如何對流動人員的人事檔案進行接收?”與Q8:“本科畢業后去英國留學,學生檔案將如何保管?”,與Q7相比,Q8的提問者難以將留學人員與流動人員對應,其次,學生檔案與人事檔案的表述相比不夠正式。在此類表述不清晰的問題中,用戶易引入無用詞匯,從而可能導致問答系統的識別錯誤。通過構建此類問題恰好能測試智能問答系統的精準識別能力。

依據上述三種規則對問題進行同義改編,因不同系統存在差異,在進行系統測試時,盡量保持各類型問題數量與比例的均衡。

4.3 錯誤式問題編制

錯誤問題的輸入是為了測試智能客服對于錯誤文本的自動校對能力,包括對文本的自動查錯與自動糾偏。借鑒劉亮亮[58]對中文文本錯誤的分類,以逆向思維對正確問題進行錯誤式改編。劉亮亮認為中文文本在問答系統中容易出現四類錯誤,分別為:替換錯誤、多字錯誤、缺字錯誤以及標點錯誤。替換錯誤指文本中的某個字被同音或形似字符替代的錯誤,多字錯誤指輸入過程中某個字重復輸入導致的錯誤,缺字錯誤則指少字或詞導致文本不完整的錯誤,標點錯誤則指標點用法不當的錯誤。經試用體驗并結合用戶輸入習慣可知,前三種錯誤在實際的鍵盤輸入過程中較為常見,最后一種標點錯誤雖時有出現,但由于問答系統對該類型錯誤的感知性較低,故針對前三種錯誤類型各設置3道改編問題,對最后一種錯誤類型僅設置1道問題,共編制10道錯誤式問題。

4.4 省略式問題編制

省略式問題指連續發問、無錯誤的中文問題,設置該類問題是為了測試問答系統的多輪交互能力。部分用戶在使用過程中存在連續追問的情形,但由于個人表達習慣差異,用戶容易對追問語句進行省略式輸入。其中,零形回指的情形最為常見。零形回指是一種在語義上在前文已出現所指對象,而在形式上卻無實在詞語的回指形式,是漢語中重要的回指形式之一[59]。例如Q1:“今天上海的天氣怎么樣?”與Q2:“那明天的怎么樣呢?”,兩問句建立在銜接語境當中,問句Q2采用零形回指,指代的先行詞是Q1中出現的上海天氣,故Q2的完整形式應是:“那明天上海的天氣怎么樣呢?”。要想在該提問方式下獲得正確答復,要求智能問答系統具備上下文語境分析的能力,通過對Q1與Q2的綜合語義理解,正確識別用戶意圖。

因政務事項咨詢中實義動詞至關重要,因此不采用零形回指指代謂語,而只以指代主語與指代賓語的方式構建省略式問題?,F針對兩種方式各舉一例:針對“省略主語”構建問題Q3:“退役士兵有哪些優待政策?”與 Q4:“有哪些安置條例?”。針對“省略賓語”構建問題Q5:“補辦身份證的條件是什么?”與Q6:“應當去哪里辦理呢?”。

4.5 英文問題編制

編制英文問題的目的是測試智能客服的英文理解能力。雖然中文問題文本字符數較短,但翻譯成對應英文問題后,文本字符數超出部分問答系統的字數限制,無法進行測試。為保障測試的一致性,提取中文問題中的主題詞,對60個主題詞進行翻譯,最終以包含政務主題詞的英文短語形式進行提問。

基于上述規則構建的問題實例詳見附錄2。

5 評價指標體系檢驗

為了檢驗評價指標體系的可用性,于2022年3月15日至16日對能夠正常運行的30個省級政府網站的智能問答系統進行統一測評。交互服務質量與基礎建設質量由課題組兩位成員依據評分細則進行獨立評分,問題解決質量則由兩位評分人運用測試題集進行獨立評分,之后進行一致性信度檢驗,并通過協商得到最終評分結果。受篇幅影響,本研究只簡要報告測評結果作為指標體系可用性的檢驗,詳細的測評過程另文發表[60]。

經過整體測評,在滿分為5分的情況下,30個省級政府網站智能問答系統最終得分位于[0.86,4.10]區間之內,平均得分為2.73,中位數為2.72,以3分為及格線,僅有9地系統達標,不及三分之一(見圖2)。其中,上海市以4.10分的成績位居第一,浙江省以4.07分的成績次之。上述評價表明結果,本研究所構建的政府網站智能問答系統評價指標體系區分度良好,可以反映政府網站智能問答系統的實際情況,具有較強的可用性。

圖2 省級政府網站智能問答服務整體得分排名Fig.2 Score Ranking of Intelligent Q&A Services on Provincial Government Websites

6 結論、討論與展望

優質的政府網站智能客服系統能夠更好地理解公民的政務服務需求,降低咨詢服務過程中的行政負擔和人工成本。本文通過理論回顧、文獻分析與案例研究,構建了政府網站智能客服評價指標體系,并基于專家調查法和層次分析法確定了指標權重。該評價指標體系包括問題解決質量(問題解決率、解答效率、信息質量)、服務交互質量(共情服務、人工支持、效果評價)、基礎建設質量(功能建設、系統性能、界面設計)3個一級指標,9個二級指標和18個三級指標,并運用專家調查法和試測評確定了指標權重。該指標體系反映了提高政府網站語義理解能力、降低用戶行政負擔的評價導向。

同時,針對“問題解決率”指標,本研究依據政府網站常問問題和高頻問題推薦,根據用戶的表達方式及輸入習慣,通過同義、錯誤、省略、英文轉換等四種方式的改寫,編制對應的問題,用于測試系統的語義理解能力。對我國30個省級政府網站智能問答系統的評價結果表明,該評價指標體系與測評問題與政府網站的應用場景相適應,能夠較為精準地定位現有政府網站智能問答系統在實踐中面臨的語義理解問題。

需要討論的是,本研究開始于2021年9月,在論文修改完成之后剛好趕上ChatGPT大熱。ChatGPT強大的對話能力對政府網站的智能問答系統提出了挑戰,同時也對本研究構建的政府網站智能問答系統評價指標體系的適用性提出了考驗,但目前看來并不會影響該指標體系對政府網站智能對話系統的應用價值。首先,與面向通用領域的聊天機器人ChatGPT不同,政務智能問答系統是一種面向特定公共服務領域的機器人,所面臨的用戶問題具有顯著的領域特征,對回復的專業準確性和效率都有更高的要求,而通用聊天機器人的優勢則主要在于語言生成,而非專業知識。其次,由于每個地方政府在法規政策和隱性知識積累上具有極大的不同,如果將依據大規模語料訓練的ChatGPT應用于地方政府網站或部門網站,則還需要專門語料加以訓練??紤]到每一種特定的政策法規并不具有大規模特點,因此面向通用領域的聊天機器人未必適用于地方政府網站。第三,本研究所構建的評價指標體系對于ChatGPT也是適用的,因為ChatGPT的評價也需要對其問題解決率、解答效率、信息質量、共情服務、人工支持、效果評價、功能建設、系統性能、界面設計進行評價和優化。最后,考慮到評價指標體系主要以評價結果、交互質量和基礎建設為評價內容,它對非政府網站的智能問答系統評價也具有適用性。

未來,隨著政府網站智能問答系統性能的提升,相關的評價研究工作應加強指標的細化,比如在問題解決質量方面加入MRR 評價指標,在均能正確回復的問答系統中凸顯差距,實現優中選優的目的。除此之外,研究者可選取更多的測試問題并進行更多樣式的改寫,也可采取眾包的測試方法對受測系統進行更加全面的認知。通過精細化測評,推動政府網站的智能問答系統向著更具智能化、人性化和個性化的方向發展。

作者貢獻說明

王芳:研究選題及思路制定,指導研究環節,論文修改定稿;

魏中瀚:研究方案設計,數據獲取、標注與分析,實驗開展,論文撰寫及修改;

連芷萱:參與研究方案設計,數據獲取與標注,論文修改。

支撐數據

支撐數據由作者自存儲,E-mail:wangfangnk@nankai.edu.cn。

1.王芳,魏中瀚,連芷萱.測試題集.txt.測評問題數據集.

2.王芳,魏中瀚,連芷萱.測評結果.xlsx.30個省級政府網站的智能問答系統測評結果.

附錄1

Appendix 1

層次總排序權重計算(保留三位小數)Calculation of Total Hierarchical Ranking Weights(Calculating to Three Decimal Places)A 權重值B1 問題解決質量 0.748 B2 服務交互質量 0.125 B1 層次權重值C1 問題解答率 0.546 C2 解答效率 0.135 C3 信息質量 0.319 B2 層次權重值C4 共情服務 0.321 C5 人工支持 0.465 B1 C1 C2 C3 B2 C4 C5 B3 基礎建設質量 0.127 C6 效果評價 0.214 B3 層次權重值C7 功能建設 0.448 C8 系統性能 0.430 C9 界面設計 0.122 層次權重值 問題解答率 0.408 解答效率 0.101 信息質量 0.239 層次權重值 共情服務 0.040 人工支持 0.058 C6 效果評價 0.027 B3 層次權重值C7 功能建設 0.057 C8 系統性能 0.054 C9 界面設計 0.016

附錄2

Appendix 2

測評問題改編實例Case of Testing Questions Adaptation

猜你喜歡
指標體系智能指標
一類帶臨界指標的非自治Kirchhoff型方程非平凡解的存在性
最新引用指標
莫讓指標改變初衷
智能前沿
智能前沿
智能前沿
智能前沿
層次分析法在生態系統健康評價指標體系中的應用
供給側改革指標體系初探
Double圖的Kirchhoff指標
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合