?

基于詞頻分布的齊夫定律朝鮮語適用性研究

2017-03-07 03:36
小說月刊 2017年23期
關鍵詞:朝鮮語詞頻對數

王 萌

(延邊大學 吉林 延吉 133002)

1 詞頻的定義與發展

(1)表達意義的基本原子單位是詞。例如house一詞使人腦海里浮現一幅景象:一幢有房頂的長方形建筑。當house一詞出現在一篇文本中時,讀者便會依據其上下文去聯想“房子”的意象。所謂詞頻是一種用于情報檢索與文本挖掘的常用加權技術,用以評估一個詞對于一個文件或者一個語料庫中的一個領域文件集的重要程度。字詞的重要性隨著它在文件中出現的次數成正比增加,但同時會隨著它在語料庫中出現的頻率成反比下降。

(2)詞語頻次的觀念古已有之。1898年,德國語言學家凱定在5000名速記人員和800名合作者的幫助下,手工統計了以報刊為主的14個語料來源的資料,所統計的總詞匯量達10,910,777條,而其中頻次在4以上的詞共有79716個。這些統計結果被編纂成了世界上第一部頻率詞典“Haufigkeits Worter buch der Deutschen Sprache”(《德語頻率詞典》),這也被普遍認為是第一次現代意義上的以統計調查方法完成的詞匯研究工作。美國教育學家與心理學家桑代克先后于1921年和1944年編寫了《教師二萬詞詞書》和《教師三萬詞詞書》,對英語的詞匯作了大量的頻率統計工作①。我國在1930年王文新對包括三種版本的國語教科書等在內的共910417字的語料進行了統計和分析,首先把詞語分為單詞單音詞和復詞復音詞兩種,并分別統計了這兩種詞語所出現的頻次及其各自所占的比率。統計結果,復詞出現的詞次為214,558詞次,復詞總詞數為6411個,復詞中頻次最高的詞出現的頻次為3513次,最低的為1次②。

2 齊夫定律概述

(1)美國哈佛大學教授喬治·金斯利·齊夫通過研究詞語頻次與詞語等級之間的關系,揭示了詞頻現象的內在形式化規律。在1935年齊夫在艾思杜、貢東、朱斯等學者研究的基礎上通過對文獻詞頻規律的研究,認為:若把一篇較長的文章中每個詞出現的頻次從高到低進行遞減排列,即頻率最高的詞序號為1,頻率次之的詞序號為2,以此類推。每個單詞的序號r與其使用頻次f的乘積接近為一常量c。即r×f=c如果用橫坐標表示詞序號r,縱坐標表示相應的頻次f,就可以得到一條雙曲線,即齊夫分布曲線;如果公式r×f=c寫成logf=logc-logr,就得到了使用頻次的對數和序號之間的線性關系,即為齊夫分布對數曲線,圖像接近與一條直線。

(2)英國語言學家哈特曼和斯托克對齊夫定律的解釋則是“齊夫定律是詞的分布和頻率的總描述f×r=c,其中f為頻率,r為序號。之后齊夫得出了c的值為0.1,因而認為是一個常數。但后來經過驗證發現c值有波動的范圍,在0到0.1之間。

3 齊夫定律的朝鮮語適用性研究

本文的統計樣本語料為十九大報告韓文版中的最前面兩個段落。統計手段為人工分詞,輔以計算機計數。分詞時所依據的原則是:根據朝鮮語自身的語言特點,以齊夫定律理論為基礎,以保留詞語語義的完整性為前提。此段語料共有2084個單詞,其中漢字詞有1382個,固有詞有702個。

齊夫定律詞頻統計表

通過上述的詞頻統計表和齊夫對數分布曲線可以看出,除了排名5以下的低頻詞外,頻次f與詞級r的乘積均比較平穩,基本圍繞著一個常數上下波動,齊夫對數分布曲線也大致呈現出直線的趨勢,可見統計結果中的詞頻分布呈現出較為明顯的齊夫分布規律。結果表明如果除去少數出現頻率少的詞語,朝鮮語文本完全地符合齊夫定律,齊夫定律同樣適用于朝鮮語。

注釋:

① 馮志偉.齊普夫定律的來龍去脈[J].情報科學,1983

② 王文新.小學分級詞匯研究[J].教育研究.國立中山大學教育學研究所,1922,31.

[1] 許文霞.齊普夫定律的實踐和理論基礎[J].圖書館建設,1984,(1).

[2] 鄧洛華.詞頻分析[J].武漢大學學報(人文科學版),1987,(1).

[3] 沈關龍.齊普夫定律與專題文獻標題詞頻的研究與應用[J].情報理論與實踐,1988,(2).

[4] 十九大報告全文.延邊日報[N].2017

猜你喜歡
朝鮮語詞頻對數
含有對數非線性項Kirchhoff方程多解的存在性
基于詞頻分析法的社區公園歸屬感營建要素研究
指數與對數
朝鮮語專業實踐教學模式改革初探
指數與對數
關于朝鮮語“-?-”句式和漢語“是”字句的對比
如何辦好散居地區朝鮮語廣播
詞頻,一部隱秘的歷史
云存儲中支持詞頻和用戶喜好的密文模糊檢索
以多元人才觀為引導,深化朝鮮語專業人才培養
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合