?

一個基于完整結合邏輯的漢語范疇語法

2024-04-06 10:04劉盼盼王慶江
電腦知識與技術 2024年3期

劉盼盼 王慶江

關鍵詞:結合邏輯;結合子;范疇語法;結合范疇語法;樹庫

中圖分類號:TP301.2 文獻標識碼:A

文章編號:1009-3044(2024)03-0015-04

0 引言

近年來,神經網絡與深度學習在自然語言處理中被廣泛應用,但在訓練神經網絡時,其運行機制難以從語言學的方面得到理性解釋[1]。語言語法的研究仍十分重要。

范疇語法[2](Categorial Grammar,CG)是一種同時兼顧句法和語義且把自然語言的句法分析看作是邏輯推理的形式語法。組合范疇語法[3](Combinatory Cat?egorial Grammar,CCG)是20世紀末的理性主義產物,對CG的擴展在于增加結合邏輯[4]結合子C、B、B對應的類型提升及函數組合,用斜線類型將范疇結合的精準控制由規則一側轉向詞匯一側[5]。CCG對于計算語言學具有重要價值[6],然而在運用CCG于缺乏屈折的漢語時,需要對擴展CG的基本依據——結合邏輯重新做一系統的考慮。

文獻[7]構建CCG漢語謂詞詞庫,收集多義謂詞在真實語境中的不同分布,其目標是為每個謂詞選擇在句中合適的范疇標記,該方法可用于對漢語其他詞類的句法類型消歧。文獻[8]分析CCG和漢語句法之間的差異,提出一個改進的組合性方案,但本質上還是基于CCG的句法規則對漢語句法結構進行分析。

漢語不像其他語言能夠通過改變詞的形態來表示詞的語法功能和語義特征,它的詞基本上保持了固定的形式,不會出現屈折變化。文獻[9]認為詞類或短語結構在參與構建短語時可發生語法性質轉變,使用轉類后的句法范疇,為此在組合范疇語法中增加了范疇轉換規則。文獻[10]認為“類有定職”違反語法簡約,“類有多職”是漢語缺乏屈折的必然結果,范疇轉換是未轉類情況下詞類選擇其非典型句法范疇,建立帶有范疇轉換的組合范疇語法 (CCG with CategoryConversions,CCG-C2),該語法使句子結構中同一詞類或短語結構可指派不同句法范疇。只考慮部分結合子來對CG進行擴展,使CCG句法的解釋能力獲得有限的提升,這對英語來說可能已經足夠,但對漢語來說可能還不行。CCG句法規則有8條,CCG-C2用51 種范疇轉換才取得其樹庫所需的句法解釋能力。若更充分地考慮結合邏輯,使CCG句法規則更強大,解釋漢語所需的范疇轉換種數就會下降。在范疇語法中系統地引入結合子,可建立一個基于完整結合邏輯的語法,簡稱結合范疇語法(Combinatory CategorialGrammar,CCG),其英文名稱與Steedman的CCG一樣,區別在于結合范疇語法考慮了可用作二元句法的所有結合子,而Steedman的CCG只考慮了結合子C、B、B。

結合邏輯是一個基于結合子把經典一階邏輯里所有邏輯常量規約為單個邏輯常量而形成的符號系統。從結合邏輯的類型系統找到常見結合子類型,得到能夠作為范疇語法句法規則的結合子類型,再增加少量范疇轉換,形成結合范疇語法,使其能夠解釋漢語的各種短語結構。語義組合是范疇語法的一個亮點,用結合子的歸結模式解釋每一步句法分析的語義。

本文的創新在于:1)在范疇語法中系統地引入常見結合子類型,找出能夠作為范疇語法句法規則的類型,形成一套語法規則體系。2)用結合子對短語成分義項的依次應用,作為句法規則關聯的語義式。

本文第1節介紹結合范疇語法的定義;第2節介紹結合子的類型指派以及與范疇規則的對應關系;第3介紹如何給漢語句法成分指派范疇;第4節通過示例說明結合范疇語法的分析能力;最后一節總結研究內容,給出接下來的研究工作。

1 結合范疇語法的定義

范疇語法(CL) 中范疇衍生的唯一方式是函數范疇對參數范疇的“應用”,結合邏輯中項衍生的唯一方式是一個項“應用”到它右邊的項(也稱兩個項的并置)。若不考慮范疇符號內部結構,則范疇系統與項系統一開始就是一回事。結合子使右邊項之間有各種各樣的應用關系,要保持范疇系統與項系統等價,范疇系統就應該有對應這些結合子的東西。。范疇語法的全部擴展就是引入結合邏輯的所有結合子,而全部結合子無限可列,被分為基本和衍生兩部分。如果按已知結合子在左、新衍生的結合子在右排列所有結合子,只引入基本結合子和排在前面的能用于形成二元句法規則的結合子就足夠了。下面是基本結合子S、K和一開始衍生的結合子,其中‘?表示左邊歸結到右邊,大寫字母是結合子,小寫字母x、y、z、v 是結合子的參數。

詞類或短語直接通過結合規則結合成句子[11],首先給句子中的每個詞指派范疇,通過以上結合規則可以使相鄰范疇進行一步步結合,每一步使用到的結合規則直接用結合子來表示,從而得到句子的結構,用范疇結合解釋句子的基本結構。

3 詞類或短語的范疇指派

詞是按句法功能分類[12],可以為句法成分指派范疇。如為主謂結構小句指派范疇s,為名詞性短語指派范疇np,這兩個范疇為基本范疇,通過斜線拼接基本范疇得到衍生范疇,使用結合規則結合相鄰的兩個范疇得到一個新范疇。由S、K、B、T等規則可得謂語范疇s/np、定語范疇np/np和np、述語范疇(s/np)/np和((s/np)/np)/np、狀語范疇np/np、(s/np)/(s/np)、(np/np)/(np/np)和((np/np)/(np/np))/(np/np)等、補語范疇np/np、(s/np)/(s/np)和(np/np)/(np/np)等。

漢語的句法基本結構有主謂(subject-predicate,SP)、述賓(verb-object,VO)、定中(attribute-headword,AHn)、狀中(adverbial-headword,DHa 或DHn)、中補(headword-complement,HnC 或HaC)、聯合(coordina?tion,XX)等,這里中心成分H的語法性質可為名詞(n)、動詞(v)或形容詞(a),這些結構的范疇都可根據其句法成分使用范疇結合規則得到。其中聯合結構是兩個成分直接用連詞或頓號連接,用(X/X)/X來表示其范疇,X表示可以匹配任意范疇。使用CCG對例句“主考教師亦是本校教師”進行分析,其分析樹如圖1所示,首先給每個詞指派范疇,‘:后是使用結合子歸結后的語義表達式,虛線后表示兩個范疇組合所用到的句法規則。當一個小句是不飽和的,即沒有完整的句法結構時,結合子的參數是不完整的,那么結合子的歸結語義式則是不完全歸結的,如圖2所示。

本文CCG的句法規則部分是跨語言通用的范疇結合規則,由于漢語沒有屈折變化,CCG在用于漢語時應考慮其語法的詞組本位特征[13],詞組本位是由于漢語的句子構造原則與詞組的構造原則基本一致,可在詞組的基礎上來描寫句法,建立一種以詞組為基點的語法體系。在分析漢語時,有的詞組入句其語法性質發生變化,詞組應該轉類,需要通過增加范疇轉換規則來滿足詞組入更大詞組的結構需要。如在例句“在校學生一百五十三點七萬人”中,“在?!毙揎棥皩W生”作定語,需轉換規則A/v,即把動詞轉為定語,“在?!焙汀皩W生”結合作主語,“一百五十三點七萬”和“人”結合作“在校學生”的謂語,需轉化規則P/n,該句的分析樹如圖3所示。

4 結合范疇語法的分析能力

在使用本文的CCG對漢語的句子結構進行分析時,首先考慮使用跨語言通用的句法規則,當直接使用句法規則對漢語句子結構無法解釋時,增加相應的范疇轉換,兩者相結合,使其形成完整的結合范疇語法,能夠對漢語的各種結構進行分析。

用本文CCG和CCG-C2分別對“學生成績有了大幅度上升”進行分析,分析樹如圖4、圖5所示,其區別在于兩者使用的句法規則不同,且前者未使用范疇轉換,后者則通過增加了相應的范疇轉換規則,最終兩者同時產生相同結構的分析樹。

CCG為滿足對漢語的分析,也加入了少量的范疇轉換,對比CCG-C2 存在67個范疇轉換規則,CCG在增加句法規則的基礎上只保留39個范疇轉換規則,是由于CCG充分融入了結合子的類型,其句法規則更強大,可以減少對范疇轉換的使用,這樣就減少了對漢語分析時的主觀性,在對例句“國家教委打算出臺一項改革方案”分析時,CCG也使用了范疇轉換,如圖6 所示,但對比CCG-C2的分析,如圖7所示,范疇轉換的數量相對減少。對樹庫進行比較表明,引入完整結合邏輯可使范疇語法的句法能力比CCG-C2只引入部分結合邏輯的句法能力增強37%。

5 結論

漢語由于缺乏屈折變化,其詞類有多種句法功能,基于以前的范疇語法及其擴展,需要對詞類進行大量轉類,用轉類的方法分析漢語具有主觀性,這是由于以前的范疇語法及其擴展沒有更充分地考慮結合邏輯。因此根據結合邏輯的類型系統找到常見結合子的類型,提取出可以作為對應范疇語法句法規則的結合子類型,得出一套基于結合邏輯的范疇語法的句法規則,并增加少量的范疇轉換,形成一套能解釋漢語的語法體系。語義部分使用結合子的歸結模式來表示,其語義邏輯式也是完全由句法范疇決定,因此支持范疇類型的透明性。結合邏輯中是否還存在其他的結合子類型可以用來減少詞類的轉類問題,以及CCG是否能夠解釋漢語中所有的句子結構情況,需要通過構建樹庫去驗證,這也是本文接下來的工作。

【通聯編輯:李雅琪】

91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合