?

漢語話頭話身關系分析影響因素研究*

2024-01-11 08:41盧達威
學術研究 2023年12期
關鍵詞:標點常識句法

盧達威

一、話頭話身結構和話頭話身關系分析

話頭話身關系是話題說明關系的擴展。漢語是話題顯著型語言。在單句層面表現為“主語即話題”;①趙元任:《漢語口語語法》,北京:商務印書館,1979 年,第45 頁;朱德熙:《語法答問》,北京:商務印書館,1985 年,第38 頁;沈家煊:《“零句”和“流水句”》,《中國語文》2012 年第5 期。在篇章層面,話題可以通過平行推進或層級推進等零形回指方式②陳平:《漢語零形回指的話語分析》,《中國語文》1987 年第5 期。以及其他方式被后續的小句談論,從而構成超越單句的“主題鏈”③曹逢甫:《漢語的句子與子句結構》,北京:北京語言大學出版社,2005 年,第53-54 頁?;颉皾h語句”④[美]屈承熹:《漢語篇章語法》,潘文國等譯,北京:北京語言大學出版社,2006 年,第282 頁。。宋柔⑤宋柔:《漢語敘述文中的小句前部省略現象初析》,《中文信息學報》1992 年第3 期;宋柔:《現代漢語跨標點句句法關系的性質研究》,《世界漢語教學》2008 年第2 期;宋柔:《漢語篇章廣義話題結構的流水模型》,《中國語文》2013 年第6 期;宋柔:《小句復合體的語法結構》,北京:商務印書館,2022 年,第18 頁。對單句層面和篇章層面中的“話題/主題”概念進行了統一和擴展,認為被談論的成分既可以是單句層面的,也可以是篇章層面的,而且不僅可以是體詞性成分,還可以是謂詞性成分、環境成分、狀語性成分,甚至介詞、連詞等,⑥宋柔:《小句復合體的語法結構》,第26 頁。故使用了“話頭(naming)”的說法,以免與傳統話題混淆。話頭所對應的說明成分則稱為“話身(telling)”。一個話頭可對應多個話身,話頭及其所有話身組成的結構叫“話頭話身結構(Naming-telling Structure)”。

在實際語料中,話頭話身結構的概念更有利于語篇結構描寫。語篇是由一個個標點句⑦標點句指以逗號、分號、句號、嘆號、問號、直接引語的冒號、部分波折號和刪節號(關于波折號和刪節號的細節將另文說明)分隔的語段(宋柔:《小句復合體的語法結構》,第15 頁)。構成的,但超過50%的標點句句法或語義不完整。①盧達威、宋柔、尚英:《從廣義話題結構考察漢語篇章話題的認知復雜度》,《中文信息學報》2014 年第5 期。這些句法語義不完整的標點句大多能夠在上文(少數情況是下文)找到所缺失(或稱共享)的“話頭”,這些標點句本身就是“話身”,從而形成話頭話身結構。與話題說明不同的是,話頭話身結構允許層層嵌套,一個話頭話身結構允許話身是一個話頭話身結構。在話頭話身結構理論中,標點句通過話頭話身關系組成話頭話身結構,進而組成篇章,形成了“標點句—話頭話身結構—篇章”的語篇組織方式。本文研究話頭與話身的關系,是要探究標點句如何通過話頭共享組織成話頭話身結構;以及通過研究話頭補全過程,探究語言認知和理解的過程。為清晰展現話頭話身結構,我們將整個篇章按照每個標點句占一行的方式來排列,并將話身標點句縮進到話頭的右邊,這樣就可以把話頭和話身的關系直觀展現(如表1),這種篇章表示方法稱為“換行縮進圖式”。②宋柔:《現代漢語跨標點句句法關系的性質研究》,《世界漢語教學》2008 年第2 期;宋柔:《漢語篇章廣義話題結構的流水模型》,《中國語文》2013 年第6 期;宋柔:《小句復合體的語法結構》,第19-20 頁。

表1 以換行縮進圖式展示話頭話身結構

表1 是賓州中文樹庫(Chinese Tree Bank,CTB)的一段新聞語料,我們用換行縮進圖式對這段新聞進行排列后,得到了如表1 所示的呈現形式。從話頭話身結構的角度看,整體段落7 個標點句(c1~c7)構成以“西藏銀行部門”為最外層話頭的話頭話身結構(例中話頭用“ □ ”表示)?!拔鞑劂y行部門”的話身有三個,分別是“積極調整信貸結構”(c1)、目的連詞“以”為話頭的話頭話身結構(c2~c3)和以“去年”為話頭的話頭話身結構(c4~c7)。其中“去年”的話身也有3 個,分別是以“新增貸款”為話頭的話頭話身結構(c4~c5),“農牧業……億元”(c6)和“鄉鎮……點八三”(c7)。從標點句的角度看,除c1 不缺話頭外,c2~c7 都缺少部分話頭,有的缺少一層話頭(如c2 和c4),有的缺少兩層話頭(如c3、c6、c7),有的缺少三層話頭(如c5)。以c5 為例,“比上年增加八億多元”不完整,缺少話頭。檢索上下文發現c5 說的是“新增貸款”(在c4),屬于實體話頭;③話頭話身結構理論中包含四種類型話頭:實體話頭、環境話頭(包括時間和處所)、謂詞話頭和狀性話頭(宋柔:《漢語篇章廣義話題結構的流水模型》,《中國語文》2013 年第6 期)。補全后看似完整,再往前還發現環境話頭“去年”(在c4),這是“新增貸款比上年增加八億多元”發生的時間;再往前發現c5還有另一實體話頭“西藏銀行部門”(在c1),這是“新增貸款”的領有者。再往前已沒有其他能夠進一步補充說明c5 的部分了,至此,c5 補全話頭后完整的信息應該是“西藏銀行部門去年新增貸款比上年增加八億多元”,補全后的句子叫作“話頭話身自足句”(Naming-telling Clause)。其中,“新增貸款”是直接話頭,“西藏銀行部門”和“去年”都是間接話頭。

以上對表1 的分析發現,識別各標點句的話頭需要對標點句進行話頭話身關系分析。話頭識別的研究可以幫助我們了解人在閱讀理解時對標點句的認知過程,進而幫助計算機進行話頭話身結構自動識別。但這是一項復雜的任務。對人來說,憑語感進行話頭識別很容易,這個過程甚至是無意識的。但我們更想知道,所謂的“語感”究竟包含了哪些內容?也就是說,人在話頭話身關系的識別過程中,究竟調用了哪些語言特征和語言知識?以及這些特征和知識如何協調和互動?哪些因素起了關鍵作用?調用順序如何?對這些問題的研究,一方面從語言認知的角度,能夠對人類語言理解有更深刻的認識;另一方面,從語言計算的角度,話頭話身結構識別可以檢驗語言學知識和規律的正確性,也有助于計算機信息抽取、信息摘要、機器翻譯等工程應用。

本文正是在已有話頭話身結構理論的基礎上,從語言認知和語言計算的角度出發,分析話頭話身關系,挖掘話頭識別過程中所涉及的影響因素和因素間的互動關系。為此,我們構造了一個“話頭話身結構語料庫”,對30963 個標點句、約37.8 萬字的語料進行了人工的話頭話身結構標注,內容涉及百科釋文、小說和政府工作報告等語體類型。其中,百科釋文包括生物、地理、歷史事件和人物4 種題材;小說包括當代小說、現代章回小說和古代白話小說??疾煺Z料發現,話頭話身關系涉及語義、句法、語境、常識、百科知識等影響因素。以下我們將對這些影響因素逐一考察。

二、影響話頭話身關系分析的語義因素

考察語料發現,話頭話身分析中最主要的影響因素是語義知識,這是標點句話頭識別分析的基礎。語義知識對人來說顯而易見,但從語言理解過程看,我們不知道自己調用了哪些知識以及這些知識的調用過程。從語言計算角度,理解語義則是比較困難的。雖然人工智能大語言模型(如ChatGPT 等)已具有一定的語義知識,但這些模型是一個黑箱,無法知道其識別過程,且對語義的理解不穩定。因此,我們仍需要對影響話頭話身關系的語義因素進行挖掘。目前發現的語義特征有以下類型。

(一)話頭和話身主要謂詞的語義關系

這主要是指話頭和話身謂詞的語義搭配關系(如表2)。表2 展現了語料中最普通的話頭話身結構,其中c1 不缺話頭,c2 缺少話頭。從語言認知過程看,c2 的話頭補全過程如下。首先,判斷c2 缺話頭的原因。本句缺少話頭的原因是核心謂語“倒酒”的論元數量不足,“倒酒”缺少語義上的主體論元。第二,判斷缺失話頭的類型。根據語義常識,“倒酒”的主體應該是人。第三,查找c1 的所有成分(“小姐”“啟開”“酒瓶”),并逐一識別其語義類型(“小姐”是人,“啟開”是動作,“酒瓶”是物品)。第四,匹配c2 對話頭的語義要求和c1 的候選話頭語義類型,得到c2 的話頭是“小姐”。從語言計算的角度,以上認知過程可以形式化為話頭識別的基礎算法,其中語義搭配知識和語義類型知識可以從語義詞典①如由北京大學袁毓林教授開發的《漢語實詞信息詞典》。該詞典包含名詞的物性結構知識,形容詞、動詞的論元結構知識等,特別是物性結構知識包含了豐富的與名詞所指事物有關的常識(詳見袁毓林、曹宏:《“漢語形容詞句法語義功能信息詞典暨檢索系統”知識內容說明書》,《辭書研究》2019 年第2 期;袁毓林、曹宏:《〈動詞句法語義信息詞典〉知識體系及其檢索界面》,《中文信息學報》2022 年第8 期?;蛘哒Z料統計中獲得。

表2 話頭和話身主要謂詞之間的語義關系示例

話頭和話身謂詞的語義搭配關系是其他語義特征的基礎,話頭和話身謂詞的語義關系是最基本的語義關系。語料調查中發現,大部分標點句的話頭靠話頭和話身的謂詞的語義搭配就可以識別。

(二)大話頭與小話頭的語義關系

有的標點句缺少話頭的原因不是核心謂詞的論元不足,而是當句首為一階名詞或者一些意義不自足詞語時,缺少其依附成分。這類詞語相當于一個小話頭,需要在上文找到所依附的成分作為大話頭。小話頭與其依附的大話頭的語義關系主要有:局部和整體、部分與全體、屬性與主體、事物與領有者,以及空間(或時間)參照關系、人際參照關系等(如表3)。②張瑞朋:《現代漢語書面語中跨標點句句法關系約束條件的研究》,北京:中國社會科學出版社,2013 年,第37-40 頁。

表3 大話頭與小話頭之間的語義關系示例

表3(a)句首“年均溫度”是一種屬性,其屬性主體是“澳門”。表3(b)c1 的“安徽省”和c2 句首“銅陵”構成大小處所的關系,“安徽省”成為c2的話頭。表 3(c)c1 的“1912 年10 月”與“9日”以及c2 句首“17、18 日”構成大小時間的關系。大小話頭的語義關系也可以歸納為詞匯知識,在話頭識別時,這類知識可以作為語義搭配知識的補充。

(三)前句主語和賓語的語義關系

單靠上文話頭和話身謂詞的搭配以及大小話頭語義關系有時還不足以確定話頭。例如,在判斷句中,前句主語和賓語在語義搭配上能與話身搭配,但主賓語的語義關系不同,會影響是否作為話頭。若前句的主語和賓語分別是類和子類或類和元素的語義關系時,傾向于以子類或元素作為本句話頭(如表4)。表4(a)c2 和c3 句首“眼”“背鰭”都是身體部件名稱,c1 的“條紋蝦魚”和“中國玻甲魚科”語義上都能成為部件的主體。在沒有其他標記的情況下,傾向于以子類為話頭,即“條紋蝦魚”。而且這與句法無關,即使我們把上例稍作變動,以“條紋蝦魚”作主語,語感上仍然認為c2~c3 在描述“條紋蝦魚”(如表4(a1))。在語料庫中真實的例子如表4(b)。表4(b)c2 句首是器官名詞“體”,需要依附于生物全體構成整體與器官關系。僅看詞匯語義,c1 中“電鰻目”“硬骨魚綱”都能與之搭配?!半婗犇俊笔亲宇?,“硬骨魚綱”是父類,“電鰻目”更傾向于成為話頭。

表4 前句主語和賓語之間的語義關系示例

可見主賓語的語義關系也能影響話頭識別。判斷句中傾向以概念更具體、外延更小的成分為話頭。

(四)話身謂語語義類型

標點句本身謂語動詞的語義類型對話頭話身關系也有較大影響。若缺話頭的標點句的謂語是表達屬性、狀態等靜態描寫的語義時,傾向于以前句動詞賓語為話頭;若標點句的謂語動詞是表達動作、事件等動態描寫的語義時,傾向于以前句主語為話頭(如表5)。表5(a)和(b)的c1 相似,c2 不同。表5(a)的c2 的句首是“臉上”,核心謂語是“有些紅點”,無論從搭配角度還是大小話頭關系看,c1 的“兩人”或“孫小姐”在句法和語義上都能成為c2 的話頭。但從語感可知,c2 是對“孫小姐”的進一步說明,其話頭應該是c1 的賓語“孫小姐”。表5(b)不同在于,雖然c1 的“鴻漸”和“孫小姐”在句法語義等方面也都能作為c2 的話頭,但從語感可知c2 的話頭是主語“鴻漸”而不是“孫小姐”。造成以上差別的原因是:表5(a)的c2 是靜態描寫,這種情況往往是對前句賓語(通常在句子的信息結構中是新事物)的進一步解釋說明。而表5(b)c2 的核心謂詞“說”是動作性較強的語義類型,往往是前句主語的時間上連續的動作??梢?,標點句本身的語義類型也有重要影響。

表5 話身謂語語義類型差異示例

(五)非直接句子成分充當話頭

在上文的討論中,我們默認話頭成分是一個能夠直接充當句子成分的短語結構。實際上,在一定的語義因素影響下,句子成分的局部也可能成為話頭,如定中結構的定語或主謂結構的主語等(如表6)。表6(a)(b)(c)中,c2 都以c1 中定中結構的定語為話頭,而這個定中結構在c1 中分別是主語、賓語、介詞賓語。雖然句法各異,但語義上這幾個定語都是中心語是領有者,故成為c2 的話頭。這不是特例,定中結構中表環境、領屬、類型等的定語,都有可能成為后句話頭(如表7)。表7(a)是語料庫原文,c2 的話頭“1995 年末居民儲蓄存款余額”呈現為定中結構,只要有需要,定語的各個部分幾乎都能成為話頭。比如我們可以自擬出表7(b)(c)(d)的例子。表7(b)(c)(d)中c2 的話頭分別是“存款”“居民”“1995 年末”,在語義上分別與中心語“余額”構成環境、領屬、類型等關系。c2 句與其構成話頭話身關系的原因既包括句式的對齊,也包括大小話頭的語義關系??梢?,雖然從傳統的句法分析角度看,定語與中心語是修飾關系,定語是名詞短語的一個成分,不是句子的直接成分,不影響句子格局,但從話頭話身結構看,定語和中心語在語用上可能是一系列潛在的嵌套的話頭話身關系。

表6 定中結構的領屬定語充當話頭的示例

表7 定中結構的各類型定語充當話頭的示例

除了定中結構外,當句子主語是主謂結構時,其主語也可能充當話頭(如表8)。表8(a)c2 的話頭是主謂賓結構“建設規模超過國家財力、物力的可能”,其主語部分“建設規?!边€可以獨立做話頭。例如,我們可以根據句法平行結構的原則追補出以c1“建設規?!睘樵掝^(如表8(b)的c3)。

表8 主謂結構的主語充當話頭的示例

當然,以上的例子只說明存在這樣的現象,并非所有定中結構的定語都能成為話頭。例如描寫性的定語(如“漂亮的女孩”中的“漂亮”)就不能與中心語形成話頭話身關系,不能被后續話身說明。

(六)小結

從上述語義特征可知,在認知話頭話身關系時,首先確認造成話頭缺失的原因,如果是核心謂語的主體論元缺失,則要考慮話身與候選話頭的語義搭配;如果標點句句首有小話頭,則要考慮候選話頭與句首小話頭的語義關系;判斷句中,傾向于概念更具體、外延更小的成分為話頭;如果話身標點句表達靜態描寫,一般是一種解釋說明,傾向于以非句首的成分為話頭;另外,表環境、領屬、類型的定語和主謂結構的主語也可能成為話頭。

三、影響話頭話身關系分析的句法因素

這里說的句法因素,主要是指在進行標點句的話頭話身關系分析時,能夠從字面識別的,或者經過簡單句法分析能夠識別的特征。已發現的句法特征有關聯詞語、平行結構和語篇停頓。這些句法特征一般與語義因素不沖突,主要起到標記提示的作用。

(一)關聯詞語

關聯詞語對話頭話身關系分析有明顯的提示作用,特別是標點句句首有“就”“便”“所以”“但是”等后連詞時,該句傾向于共享前句的主語作話頭(如表9)。表9(a)的c1 主語“王腳”和賓語“兒子王肝和女兒王膽”,在語義上都能與c2“大聲喝斥”搭配,但在于c2 句首存在后連詞“便”,表示c2和c1 是動作的順承,即c2 是動態描寫。因此,c2 語義指向“王腳”。如果前句有與之搭配的前關聯詞,那么這一對關聯詞語傾向于對應起來。例如表 9(b)的c3 缺話頭,c3 與“你”和“他”在語義上都能夠搭配,不過“雖然”和“但是”組成關聯詞對,所以c3 共享“雖然”的話頭“他”。

表9 關聯詞語影響話頭話身關系分析的示例

(二)平行結構

平行結構最早由Frazier①Frazier, Lyn; Taft, Lori; Roeper, Tom; Clifton, Charles, “Parallel Structure: A Source of Facilitation in Sentence Comprehension”, Mem Cognit, 12(5), 1984, pp.421-430.提出,指由兩個或兩個以上相關聯的語言單位組成,這些語言單位由連接詞或其他手段連接,具有相同的組成成分,在句子中擔當相同的句法角色。平行結構一般被用于修辭方面的研究,如篇章銜接等。Chambers 等①C. Chambers; R. Smyth, “Structural Parallelism and Discourse Coherence: A Test of Centering Theory”, Journal of Memory Language, vol.39(4) , 1998, pp.593-608(16).把平行結構引入描述篇章回指現象,研究了代詞回指問題,認為代詞傾向于回指與其結構平行的先行詞,李榕②李榕:《影響代詞回指的因素分析》,《當代語言學》2012 年第2 期。認為平行結構指相接的兩句話宏觀結構一致,而且包含有語義聯系的謂語。她關注的也是代詞回指的問題,認為如果含代詞的句子和前一句的格式平行,平行結構可以打破主語的優先權,影響代詞回指??傮w來說,學者們對平行結構的定義主要關注篇章銜接等方面。話頭話身結構的標注過程中發現,平行結構對共享話頭的確認非常有效(如表10)。表10 都是平行結構組成的話頭話身結構。表10(a)的c1 尾部和c2、c3 對應成分都是“互相+行為”;表10(b)的c1~c3 的結構都是“時間副詞+擔任+隸屬者+職務”;表10(c)的c2~c4 與c1 尾部都是“向+方向+到達+處所”結構。當然,平行結構也能夠造出反例(如表11(a))。表11(a)c1~c3 雖然句式上構成了平行結構,但常識上,“小趙”的可能方位只有左右前后上下,如果后面被占據了,再有“后面”只能是“小錢”的后面。若換成“前、后、左、右”則不一樣,如表11(b)的c2、c3,由于“前、后、左、右”語義不沖突,于是都傾向于共享主語“小趙”??梢娫掝^識別的影響因素是眾多的。

表10 平行結構影響話頭話身關系分析的示例

表11 平行結構影響話頭話身關系分析的正反例對比

(三)語篇停頓(標點符號)

語言中停頓的長短代表了人對話頭轉換的預期,停頓長更傾向轉換話頭,停頓短更傾向接著原有話頭繼續說。不同停頓時長落實到文本中,就是不同的標點符號。因此,標點符號作為話頭話身關系的標記是有一定認知理據的,語料中對話頭話身關系分析也有一定影響(如表12)。表12 的c3 缺少話頭。從上文看,c1 的“鄉鎮企業”無論句法上還是語義上都適合充當c3 的話頭,但是語感上c3 與c1~c2 并不屬于同一個話頭話身結構,c2 的句號起到了一定的提示作用。實際上,c3 是一個主語省略句,在政府工作報告中比較常見。當然,標點符號僅為一種傾向性提示,句號切分話頭話身結構的平均正確率只有80.77%,③何曉文、羅智勇、胡紫娟、王瑞琦:《基于小句復合體的句子邊界自動識別研究》,《中文信息學報》2021 年第5 期。例如,表1 的c5 句就是反例。c5 是句號,但是后句沒有轉換話頭,仍以“西藏銀行部門”為話頭。

表12 語篇停頓(標點符號)影響話頭話身關系分析的示例

(四)句法特征判別與語義核查

本節提到的句法特征,雖然對話頭話身關系的判別有較高的準確率,但目前只是局部的特征,尚未形成體系。由于漢語句法形式特征比較缺乏,能夠明確影響話頭話身關系的句法因素并不多見,所以句法特征對語料覆蓋度不高,多數情況下需要其他知識輔助判斷。

值得注意的是,基于句法特征進行話頭識別后,還需要進行語義、語境、常識等多方面知識的核查,才能真正確認話頭。人在理解語言時也如此,當一句話符合句法、語義、常識等各方面的認知,我們才認為自己“理解”了這句話。若某個具有特定句法特征的話頭語義不合格,應該根據語義特征重新識別話頭。這是話頭識別過程中的一種“語義核查”機制。

四、影響話頭話身關系分析的語境因素

大部分標點句單看前句可以確定話頭,但仍有極少數標點句,需要看更遠的上下文才能確認(如表13)。表13(a)的c2 句首“下面”是方位詞,意義不自足,需要含有方位特征的名詞作話頭構成空間參照關系。例中可與“下面”形成參照的候選成分有“那張片子”和“‘杜甫’兩字”。這兩個成分無論誰作為c2 的話頭句法語義都是通順的。由于“天頭上”又和“下面”對應形成方位的平行結構,似乎傾向于以“天頭上”前的“那張片子”作為話頭,即理解為表13(b)。但我們看更遠的上下文就會發現(見表13(c)),表 13(a)理解不正確。仔細揣摩表13(c)的后文發現,“片子”從上到下應該是“‘杜甫’兩字”,接著是“標題”,接著是正文。所以“下面”并不是指“那張片子”的下面,而是“‘杜甫’兩字”的下面。因此,c2“下面紫墨水寫的標題”,其話頭應該是“‘杜甫’兩字”。

表13 語境因素影響話頭話身關系分析的示例

這個例子反映出,句法特征有時候會起反作用,甚至引起誤導,下文語境對其進行了糾正。語境因素通常以一種“語境核查”的形式起作用。就是說,如果一個話頭符合句法語義,但與語境相沖突,則應該重新選擇符合句法語義的其他候選話頭,再進行語境核查。

五、影響話頭話身關系分析的常識因素

有時僅靠句法語義知識仍然難以確認標點句的話頭是其上下文的哪一成分,還需要用到常識(如表14)。表14(a)“香蕉”比“桃子”容易剝皮是常識,若c2 改成“剝皮真麻煩!”將會理解為對“桃子”的描述,以“桃子”為話頭。表14(b)單從句法語義上看,c2“搶去錢袋”的話頭可以是“他們”也可以是“潰兵”。但“潰兵”更容易讓人與“搶”的施動者聯系起來,因此以“潰兵”為話頭更合理。即使表14(c)將主語和賓語位置調換,把“潰兵”作為主語,“搶去方老先生的錢袋”的人仍理解為潰兵??梢?,當若干候選話頭句法語義都合格而難以選擇時,往往需要常識輔助。同時,常識也會對符合句法語義的話頭進行核查,核查不通過可能需要重新選擇其他候選話頭(如表11(a))。但將常識形式化難度很大,人們甚至不清楚自己有多少常識,對語言處理而言是一大挑戰。

表14 常識因素影響話頭話身關系分析的示例

六、影響話頭話身關系分析的百科知識

有的情況不僅需要句法語義語用知識和常識,還要調用百科知識幫助話頭的判斷(如表15)。表15 的c4 的句首是“下葉”,是魚的部件名,意義不自足,需要主體。此時,如果沒有足夠的百科知識,很難判斷“下葉”是“鰺”的部件,還是“尾鰭”的部件。只有我們形成了一個魚類的本體知識集,才知道,“下葉”實際上是魚尾的一部分,所以話頭不是“鰺”,而是先共享c3 的“尾鰭”作直接話頭,再共享“鰺”作間接話頭。在語言計算中,百科知識可以利用知識圖譜等資源進行識別。

表15 百科知識影響話頭話身關系分析的示例

七、話頭話身關系分析中的知識調用與互動

上文分析可知,話頭話身關系分析涉及句法、語義、語境、常識以及百科等知識,是一個復雜的過程?;谏衔姆治龊驼Z料庫研究,我們對這些影響因素的調用順序、協調和互動過程,進行了歸納??偟膩碚f,話頭話身關系的分析過程中各類知識調用順序是:句法知識→語義知識→常識/百科知識→語境知識。這些知識的用途主要包括話頭判定和話頭合格性核查。話頭判定指從眾多可能詞語中選擇最合適的話頭,這個操作要反復比較和篩選,要調用較多的認知資源;話頭合格性核查只要檢查當前選中的話頭是否合格,沒有比較和篩選等操作,需要的認知資源較少。話頭話身分析所涉及的知識中,句法知識主要用于話頭判定,語境知識主要用于話頭核查,語義、常識/百科知識既用于話頭判定,也用于話頭核查。他們的互動過程如圖1 所示。

圖1 話頭話身分析中各因素的調用與協調

對各知識的調用與互動過程說明如下:(1)句法知識。話頭識別過程中,首先嘗試根據句法特征確定話頭。句法特征是語言理解的表層特征,最容易被識別,調用的認知資源最少。如果能夠判定話頭,則再進行語義、常識、百科知識、語境的核查。若均核查通過,則表示句法判定的話頭正確;若任何一個環節的核查不通過,都將利用語義知識進行話頭的重新判定。(2)語義知識。在沒有明顯可用于判定話頭的句法特征下,則根據語義特征進行話頭判定。若語義特征可以判定話頭,則進行常識、百科知識和語境的核查;若語義特征無法最終判定話頭,則通過常識、百科知識進一步判定。(3)常識、百科知識。若經句法特征和語義特征分析后,仍有若干個候選話頭不能唯一確定,則根據常識和百科知識對若干個符合句法語義的候選話頭進行選擇。判定后,再進行語境核查。若仍無法判定話頭,則表示上文找不到同時符合句法、語義、常識和百科知識的話頭,此時,該句可能是無主句、省略句或其他等不存在話頭的情況,甚至可能是有誤的句子,這些暫不在本文討論范圍內。(4)語境知識。語境知識主要用于對已選話頭進行核查,在句法語義常識等特征對話頭判斷失誤的情況下進行糾正。

八、結語

話頭話身結構是組成漢語篇章的基本組織結構。話頭話身結構是由多個標點句通過話頭共享而組成的。本文研究話頭話身關系,補全標點句缺失的話頭,正是為了發現標點句間的話頭共享關系。從語篇研究的角度,這項工作使我們對語篇組織結構有更深刻的認識。從語言認知的角度,話頭補全的過程涉及的句法、語義、常識、百科知識等影響因素以及它們的互動關系,是人們理解語言的過程之一,話頭話身關系研究有利于我們更好探索語言理解過程的奧秘。從語言計算角度,話頭話身關系研究和話頭補全是語篇自動分析的基礎任務。只有將話頭補全涉及的影響因素和交互過程形式化,才能構建自動計算;也只有清楚每個標點句的話頭話身關系,才能在此基礎上進行句間邏輯關系分析、篇章主旨分析等工作,這是各種基于篇章的語言處理任務不可逾越的基本步驟。

猜你喜歡
標點常識句法
標點可有可無嗎
句法與句意(外一篇)
《遼史》標點辨誤四則
述謂結構與英語句法配置
靠不住的常識
小小標點真厲害
句法二題
詩詞聯句句法梳理
近視600度以上,這5條常識務必知道
有趣的標點
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合