?

一種結構和語義兼顧的綜合分析思想在復句依存句法分析中的運用?

2019-03-26 08:44黃文燦胡金柱
計算機與數字工程 2019年3期
關鍵詞:復句單句分析法

李 源 黃文燦 胡金柱,2

(1.華中師范大學計算機科學系 武漢 430070)(2.華中師范大學語言與語言教育研究中心 武漢 430070)

1 引言

近些年來,從中文信息處理的角度下探討建立現代漢語依存關系的層次體系的研究過程中,對于依存關系的普遍性的這一特點認識越來越深刻,即依存現象普遍存在于漢語的詞匯(合成詞)、短語、單句、復句直到句群的各級能夠獨立運用的語言單位之中[1]。目前該體系在復句上的具體任務就是構建復句依存關系層次體系,現階段對構建復句依存關系層次體系的研究,可劃分為基于關系詞搭配[2]和基于語料統計的決策式分析[3]兩種。但二者主要區別在于分析分句內成分間的依存關系的手段不同。

基于關系詞搭配的研究方法在分句內成分間的依存關系的確定上,多以哈工大社會計算與信息檢索研究中心研發的“語言技術平臺(LTP)[4]”為基礎的“語言云”在單句依存句法分析上的優勢,直接通過其提供的單句句法分析器來獲取分句內成分間的依存關系。而基于語料統計的決策式分析的研究方法則改進了MaltParser句法分析器中關于Niver的Arc-eager算法,以解決對動賓與介賓等右依存情況下的過早規約問題[5]。但二者在分析復句中分句內成分間依存關系時都是從分析語法成分間的關系出發,并通過句子內詞與詞之間的依存關系來揭示句子的句法結構,但容易忽略語言結構的層次,導致在語義理解上有明顯的缺陷。

鑒于上述的缺陷,本文從漢語語法在分析句子的基本方法理論上的自身實用性特點入手,將分析句子的基本方法中的綜合分析法[6]的思想引入到復句中分句內成分間依存關系界定中,提出了一種適用于解決由于句子語法環境復雜導致的語義理解缺陷問題的漢語依存句法分析方法,并以漢語結構類型模板為橋梁,得到結構和語義兼顧的依存關系分析結果。實驗結果表明該方法能有效提升依存關系界定的性能,在與傳統的分析方法相比較時,具有一定的優勢。

2 漢語句子綜合分析法的提出

漢語句子綜合分析法主要是針對傳統的分析句子基本方法各自存在的缺陷而提出的,其中傳統的分析句子基本方法主要包括句子成分分析法和句子層次分析法,再逐步發展到把這兩種分析方法結合起來,取長補短,形成“綜合分析法”[6]。

2.1 句子成分分析法

句子成分分析法又稱為中心詞分析法,對中國的語言教學產生了深遠的影響。它的要點就是把構成句子的成分分為主謂賓定狀補這六種,將分析句子的過程形式化為說明句子成分的搭配情況的流程。分析步驟:第一步找到句子的主語和謂語,然后再把其他連帶成分逐個加上去。例如:

他的腿顫顫地發抖。(例句1)

中心詞是“腿”和“發抖”,其中“腿”是主語,“發抖”是謂語?!八摹笔恰巴取钡亩ㄕZ,“顫顫地”是“發抖”的狀語。該方法能夠促進句子的語義理解,但句子成分分析法最大的不足就是不重視語言結構的層次。例如,在區分以下兩個句子時顯得無能為力:

這位員工的提議很棒?。ɡ?)

這項員工的提議很棒?。ɡ?)

中心詞分析法對這兩個句子的分析結果均是:定語——定語——主語——狀語——謂語;但這兩個句子的層次不同,語義上也有區別。

2.2 句子層次分析法

在討論層次分析法之前,首先要了解漢語的結構類型這一概念。漢語句法的不同平面(詞、短語、句子)基本上由偏正結構、兼語結構、述補結構和聯合結構等十一種結構組成[6],這里的結構反映的是語言結構的層次性,漢語的結構類型就是這十一種結構在不同平面下的集合。句子層次分析法又叫“二分法”,要點是把每層的語言片段一分為二,一直分到不可再分為止。例如,“這位員工的提議”和“這項員工的提議”的層次就不同。

圖1 “這位員工的提議”和“這項員工的提議”的層次分析

由上述圖1的分析可知,“這位員工的提議”先分成“這位員工的”和“提議”兩個直接成分;而“這項員工的提議”則先分為“這項”和“員工的提議”兩個直接成分,然后逐層分析下去,一直分析到詞為止。這種分析方法能夠簡潔明了地把句子結構顯示出來,特別在分析多義的短語和句子時表現突出。例如:

圖2 “兩家公司的員工”的層次分析

但是,層次分析法也有必要汲取句子成分分析法的優點,因為它并沒有將直接成分間的結構關系顯現出來。例如:分析“烤羊肉”時可以出現層次相同,但直接成分間的結構關系不同的情況。

圖3 “烤羊肉”中直接成分間結構關系

由上圖可知:當“烤羊肉”成為偏正式名詞短語時,表示一種食物;而當“烤羊肉”成為述補式動詞短語時,表示一個動作。

2.3 句子“綜合分析法”

針對傳統的兩種句子分析方法均有一定的長處和不足的情況,有學者指出只要某種分析法有利于解釋復雜的語言現象,并且這種方法更簡便、更系統、更符合漢語的特點,該方法就應該被采用,可以綜合采用層次分析法和成分分析法的一些長處,并定名為“綜合分析法”[6]。該方法的要點是先劃分出主語和謂語兩大直接成分,再層層解剖出由述語和賓語,述語和補語,狀語和中心語,定語和中心語分別組成的述賓結構、述補結構、偏正結構,同時又都可以切分為處于不同層次的直接成分。例如:

同學們的陪伴和幫助漸漸增強了小明走出陰影的決心和信心。(例句4)

下面是它的分析圖:

總而言之,綜合分析法是根據漢語自身特點形成的特有的分析方法,帶有明顯的成分分析法的印記又注重語言結構層次,對于漢語句法分析有重要的指導意義。

3 引入綜合分析法的思想的漢語依存句法分析方法

本文中復句分句中各成分間的依存關系的初步確定將直接通過語言云LTP的單句依存句法分析器分析得到,再經過本文提出的漢語結構類型模板轉換后得到兼顧語義和結構的依存句法分析結果。

3.1 漢語結構類型模板

漢語結構類型模板作為將綜合分析法思想與依存句法分析相結合的橋梁,它由一系列的與漢語結構類型相關的轉換規則組成。鑒于與漢語結構類型關系密切,將其取名為“漢語結構類型模板”,考慮到依存語法將謂語作為句法分析樹的根節點的特性[7]以及作為依存語法的形式化描述的五條公理約束[8],該模板內目前包含了4條精心設計的轉換規則。

下面詳細介紹該模板內目前包含的4條轉換規則。特別說明:下面所有的轉換規則圖的左邊是語言云LTP對單句依存句法分析結果,右邊是根據與圖中粗體加黑的依存相似子樹匹配后的轉換結果;這里除了使用語言云LTP上的句法分析依存關系標注集外,轉換后添加的新依存關系類型參考了相關文獻[1]中提到的依存關系類型。

規則1:偏正結構轉換規則

偏正結構又可以更細一步劃分為定中結構、狀中結構等結構。規則1.1和1.2分別是針對定中結構和狀中結構的。

規則1.1:定中結構轉換規則

如圖5所示,例句“他是鎮壓人民的劊子手”中“鎮壓人民的劊子手”這種定中結構沒有在現行的單句依存句法分析中得到更好的處理,先分析主干“他是劊子手”才能體現出句子成分分析法提綱挈領的優點,再去分析“鎮壓人民的劊子手”內部的層次,體現了層次分析法層次分明的優點,即是引入了綜合分析法的思想進行句法分析來達到促進句子的語義和結構兼顧的效果。

規則1.2:狀中結構轉換規則

圖6 狀中結構轉換規則

如圖6所示,例句“讓小王到北京學習”中“到北京學習”這種狀中結構沒有在現行的單句依存句法分析中得到更好的處理,應先分析主干“讓小王學習”,再去分析“到北京學習”內部的層次。

規則2:述補結構轉換規則

如圖7所示,例句“他念語文念的很熟”中“念得很熟”這種述補結構沒有在現行的單句依存句法分析中得到更好的處理,它是由述語“念”+“得”+補語“很熟”構成述補短語;“得”等結構助詞連接的述補短語應被標示為兩段,一段是由述語指向結構助詞“得”,記為SD;另一段由“得”指向補語,記為DB。雖然現行的方法分析“他念語文念的很熟”的主干部分沒有問題,但是忽略其中“念得很熟”這種述補結構的層次性。

圖7 述補結構轉換規則

規則3:聯合結構轉換規則

圖8 聯合結構轉換規則

如圖8所示,例句“大山和大海都很壯麗”中“大山和大?!边@種聯合結構沒有在現行的單句依存句法分析中得到更好的處理?!昂汀弊鳛椴⒘羞B詞雖然能夠被COO(并列關系)和LAD(左附加關系)共同解釋為標識并列關系,但是一旦出現“又陰又冷”等多個并列連詞時會錯誤分析為ADV(狀中關系),所以這里統一起見,由并列成分指向連詞、副詞或頓號的關系記為L-CO;由連詞、副詞或頓號指向并列成分記為L-CO。

規則4:兼語結構轉換規則

圖9 兼語結構轉換規則

如圖9所示,例句“他請我吃飯”中“請我吃飯”這種兼語結構(述賓短語“請我”中的賓語“我”作主謂短語“我吃飯”的主語)顯然沒有在現行的單句依存句法分析中得到更好的處理。上述的處理既不利于語義的理解(即是他請的我,我吃的飯),又忽略其中“請我吃飯”這種兼語結構的層次性。這里將兼語關系的標示分為兩段,第一段由述賓短語中的述語指向其賓語并記為JYSB,第二段由主謂短語的主語部分指向其謂語部分并記為JYZW。

3.2 融入綜合分析法思想的依存句法分析

之所以要求依存句法分析結果做到語義與結構兼顧,是因為事實上結構和語義之間存在著內在的必然的聯系,它們互為存在的條件,進行語法分析不可能拋開語義和結構中的任何一個,只有語義和結構相結合,才能進行全面的科學分析[6]。這里通過舉例來剖析該方法的分析流程。

他們派我到上海學習。(例句5)

下面是用該方法來分析例句5的流程圖:

圖10 融入綜合分析法思想的依存句法分析方法的例句流程分析圖

如圖10所示,例句“他們派我到上海學習”的依存樹首先匹配漢語結構類型模板中的規則1.2來轉換“到上海學習”這種狀中結構,然后讓改變拓撲后的依存樹再匹配規則4來轉換“他們派我學習”這種兼語結構,值得注意的是:此時樹節點“學習”有子節點,再將以“學習”為根節點的子樹作為整體一并進行轉換,最終得到圖10中間位置的依存樹,該依存樹就是用融入綜合分析法思想的依存句法分析方法來分析該例句的最終結果。

4 在構建復句依存關系層次體系中的應用及實驗分析

4.1 在構建復句依存關系層次體系中的應用

前文討論了在構建復句依存關系層次體系時分析分句內成分間的依存關系的過程中引入綜合分析法的思想,但它只是構建復句依存關系層次體系中的一個重要的環節而已。從構建整個復句依存關系層次體系的視角下對復句實例進行具體觀察,將本文提出的方法應用在復句依存關系層次體系構建中。這里需要強調的是:1)構建過程中對復句的預處理工作包括分詞、關系詞識別、分句識別、分句類別識別,其中這里分詞使用的是ITCAST分詞工具,關系詞識別采用舒江波的關系詞搭配理論[9]、胡金柱的規則標注方法[10]與決策樹結合的識別方法[11],分句上采用李瓊的標點符號分句[12]和書讀語言片段的非分句識別[13]相結合的思路,復句的關系分類類別劃分采用刑福義的三大類十二小類[14];2)分句間的依存關系是該體系中的“第一層”依存關系,每個分句內成分間的依存關系是該體系中的“第二層”依存關系,最后通過n+1(n為復句中的分句個數)棵依存樹的可視化形式來描述整個復句的句法結構規律和特點;3)復句分句間依存關系樹采用樹存儲結構中的孩子兄弟表示法,分句內成分間依存關系樹則采用樹存儲結構中的孩子表示法;4)復句分句間依存關系樹中提到的依存關系標記集(如因果關系GCR)沿用了分句間依存關系標記集[2];由于如何確定并得到復句分句間依存關系樹不是本文的研究重點,這里使用基于關系詞驅動的確定性移進-規約算法[2],該算法是在魯松提出的具有預測機制、自底向上、部分數據驅動的確定性移進-規約關系層次分析算法[15]的基礎上做了相應的改進。

下面舉例說明:

海瑞懂民情懂得很深刻,他是體恤百姓的官員,聲譽也很好。(例句6)

圖11就是該例句的復句依存體系分析。

圖11 復句依存體系分析

圖11中粗體加黑部分就是匹配到到漢語結構類型模板中的規則后得到的最終結果。圖(a)是例句5中三個分句間依存關系,其中分句1與分句2構成并列關系(COO)的小句關聯體[16]再與分句3形成復句最外層的因果關系(GCR);圖(b)、圖(c)和圖(d)分別揭示各分句內成分間依存關系。

4.2 實驗結果分析

從中文信息處理角度下以CCCS語料庫中隨機抽取的500條三句式(吳鋒文提出了三句式有標復句層次關系自動識別研究的豐富理論,而且也便于計算分句個數)復句作為實驗數據集,通過用本文提出的方法實驗分析這500條復句中的1500條分句來證明該方法在一定程度上提升了依存關系界定的性能,即促進了依存關系結果更加兼顧語義和結構,更好地解釋語言現象。表1說明本文提出的4條針對非其他結構的漢語結構類型規則在進行依存結果分析統計時的覆蓋率高達58.1%(即實驗數據集中58.1%的復句在傳統方法的基礎上都進行了復句依存分析結果的優化)。

表1 11種漢語結構類型的實際分布

但該方法仍然有改進之處:1)漢語結構類型模板中的規則只有4條,而漢語結構類型有11種,所以很難覆蓋所有的復句實例,可以進一步豐富漢語結構類型模板中的規則;2)LTP上得到的單句句法分析器同樣存在句法分析錯誤,本方法的預處理就是該單句句法分析器上的結果,如何對預處理結果進行句法矯正后再進行模板規則匹配,也是本文下一步值得思考的地方。

5 結語

本文的目的是以漢語復句語料庫CCCS中抽取的復句為例,探討在構建復句依存關系層次體系時分析分句內成分間的依存關系的過程中引入綜合分析法的思想的必要性和有效性。從實驗分析來看,本文提出的方法能在一定程度上提升依存關系界定的性能,更好地解釋語言現象,同時也對構建復句依存樹庫的研究奠定了基礎。

猜你喜歡
復句單句分析法
語篇類型對日語復句關聯標記選擇的影響機制
異步機傳統分析法之困難及其克服
連動結構“VP1來VP2”的復句化及新興小句連接詞“來”的形成
基于DEA分析法的全國公路運輸效率分析
哈漢復合句對比
基于層次分析法的智慧城市得分比較
基于層次分析法的智慧城市得分比較
電化學發光分析法測定糖尿病相關二肽
參考答案
2015年《時代英語》高二第1期參考答案
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合