?

莫言作品語言特色的計算機分析方法

2014-03-27 09:04翟厚呈,萬少東,王義鵬,王朝龍
科技經濟市場 2014年1期
關鍵詞:莫言

翟厚呈,萬少東,王義鵬,王朝龍

摘 要:本文運用計算機軟件方法,實現對莫言若干篇作品的自動處理,分析他遣詞用句的文學特色,嘗試計算機軟件和數據庫技術在文學領域的應用。

關鍵詞:莫言;詞頻分析;文本處理

0 引言

文本分詞處理是情報學、信息技術研究的重要方向和應用領域,目前對于英文文本處理的技術比較成熟,而中文表達方式在結構上與英文有著巨大的差異,中文文本中的詞語的用法變化多端,需要深入地研究。諾貝爾文學獎得主莫言(1955-),原名管謨業,生于山東高密縣,中國當代著名作家。香港公開大學榮譽文學博士,青島科技大學客座教授。他自1980年代中以一系列鄉土作品崛起,充滿著“懷鄉”以及“怨鄉”的復雜情感,被歸類為“尋根文學”作家。其作品深受魔幻現實主義影響,寫的是一出出發生在山東高密東北鄉的“傳奇”。莫言在他的小說中構造獨特的主觀感覺世界,天馬行空般的敘述,陌生化的處理,塑造神秘超驗的對象世界,帶有明顯的“先鋒”色彩[1]。我們通過計算機從定性的角度研究莫言的語言特色,從而提高人們欣賞莫言、欣賞文學、熱愛中華民族文化的水平。

開發計算機處理語言文本軟件,就是通過計算機技術進行定量的分析,能更準確地反映作家的寫作技巧和語言駕馭能力,總結知名作家的藝術發展之路。本文選取莫言的代表作品5篇以上,進行分詞后保存到數據庫,進行聚類分析,最后選取一定的高頻詞結合作品的情節分析它們的特色所在。

1 文本選取及處理

1.2 文本選取

本文選取莫言不同時期的五部具有代表性的作品《紅高粱》、《檀香刑》、《豐乳肥臀》、《生死疲勞》和《蛙》進行分析。1981年莫言發表了人生的第一部作品《春夜雨霏霏》。至今莫言共發表了80多篇短篇小說、30部中篇小說、11部長篇小說,出版過5部散文集、一套散文全集、9部影視文學劇本,以及兩部話劇作品。

如圖1,莫言作品時期間隔明顯。莫言是我國新一輩極具活力的作家之一。早期的作品描寫童年記憶的鄉村世界,表現獨特的生命體驗。中期受拉美魔幻現實主義的影響,構造獨特的主觀感覺世界,塑造神秘的超驗的對象世界,給人以“先鋒”色彩。而后進入新的探索期,激情勃發,畫面五彩斑斕,語言充滿進攻型,反叛語言[2]。本文進行分析研究的五部作品是莫言不同時期的作品,一部是早期的,一部是中期的,其余三部是新時期的。

1.2 技術方法

運用計算機語言VB和VC開發出一款中文語言文本處理軟件,定量的分析莫言作品中語言特色;使其具備對選中的文本進行分詞處理及將處理好的詞匯導入數據庫表,并統計詞頻;然后利用SQL server 2005和Excel 2010中分類、排序和匯總等功能對數據進行對比分析等處理。

1.3 文本處理

文本處理分為兩個部分。第一,將將不同格式的莫言小說的電子文檔轉為統一的.txt文件格式,運用自編文本處理軟件將電子文檔進行分詞處理,并導入SQL server 2005和Excel 2010中,使其滿足分類、排序和匯總等功能將數據處理為所需形式。第二,人工結合計算機分析的結果將每部作品中出現頻率高的字、詞提取出來,利用Excel 2010進行對比分析。并與莫言所生活的環境和所處時期進行對比,得出其語言的用語特色。

2 軟件設計

軟件設計可分為兩個部分工作。

第一,準備工作。在處理數據前先對詞頻分析和如何詞頻分析進行了研究?,F在較為成熟的詞頻分析為英文的詞頻分析,因為英文每個單詞之間都有空格符間隔,易于進行提取單詞處理。而現在較為成熟的中文分詞軟件是AnalyzerTest和中科院張華平博士的分詞軟件,而這兩款分詞軟件都有一些欠缺。AnalyzerTest的分詞效果稍差些,速度和準確性有待提高;張華平博士的分詞處理軟件的可操作性不高,使用方法繁瑣。因此,本文力求克服上述軟件的缺點,就如何實現并提高中文分詞的效率和如何提高軟件的可操作性方面進行了重點改進。軟件設計側重于兩個方面:(一)基于字符串的分詞方法,這種方法主要是提高對長字符串的提取?,F行的中文分詞軟件對超過兩個字的長字符串的分詞效果差,這樣對文章分析的破壞性很大。本文著力提高對字符串的提取效果,對文本處理意義很大。(二)基于統計的分詞方法,特別關注對疊詞的提取。疊詞在文章分析過程中很容易改變原意。

第二,編寫程序,文本分詞處理。本文的特點是以助詞、語氣詞、標點符號等特殊字詞為標志來實現分詞處理,應用中預期效果很好。

文本處理的程序運行流程如圖2所示。在實際應用中如果僅僅利用上述的特殊字詞為標志來處理文本的話,那么產生的結果會有較大的失真現象。例如若以助詞“的”為特征詞來做分詞處理,那么如果出現“有的放矢”這個詞,軟件就會將“的”剔除,變成“有”和“放矢”這兩個詞。使分詞的效率大大降低。從而使得出的詞頻分析失去準確性。所以,針對上述問題本軟件設計了解決方法。一般地,中文的語句和字詞有一個特點,就是每句話都由固定詞性的字詞構成,如“主語+謂語+賓語”就構成一個簡單的語句。并且中文本每個字詞都有其固有的詞性,如“動詞”、“名詞”、“介詞”、“助詞”等。本文利用了這層關系進行分詞處理,分詞的失真率已經大大地降低了,并且詞頻的統計準確性更高。

3 莫言作品語言特色分析

莫言曾說:“語言變起來比較困難,語言是一個作家風格的最主要的體現。以前我一個老師說過‘語言在某種意義上是一個人的精神分泌,他認為一個人之所以講話時這種語調,這種風格,他的詞匯量的組成跟他的生活是有關系的。我努力變化著語言,盡量簡潔平實一點,通俗易懂一點……”[4]莫言是文學大家,利用計算機對他的作品進行分析,是為了更好的欣賞他的作品,分析他長期以來的遣詞造句的特色。如表1所示,表1是莫言文章中所使用的部分助詞與語氣詞的詞頻分析。這些詞在本文的軟件運行時會當成分詞標志全部被處理,通過對這些助詞和語氣詞的分析,可以分析出莫言的一些用語習慣。比如其對“的”的使用,幾乎沒有什么變化,而其對“啊”、“是”的使用頻率卻隨著寫作時間的推移,他對這個字的使用頻率更高。得出的一個明顯的印象是莫言作品膠東地區口語化的描述較多,閱讀起來比較有自然而輕快的感覺;莫言的文學更加貼近生活。

通過分析,莫言作品還有很多遣詞造句的特色,比如莫言的文章中很喜歡使用疊詞,如:《紅高粱》中,馬騾驢?!翱┼钥┼愿吡唤兆?,口炎炎啦口炎炎啦吃高粱穗子”,《檀香刑》中,他學傷風山羊一樣地咳嗽:“吭吭坑!吭吭坑吭吭坑吭”,這些疊詞形式的聲音詞往往使文學語句整齊勻稱,從而增強語言的節奏感,讀來朗朗上口,聲韻鏗鏘。通過對莫言作品的文本處理分析,一方面可以從高頻詞的使用揭示其語言技巧,另一方面,也可以通過低頻詞的出現反映了莫言作品中濃郁的鄉土氣息。例如通過統計分析發現莫言作品中常常出現一些方言語匯,雖然出現的頻次較低但很有特色,呈現出原生態的語言,對山東高密的方言運用尤為突出。如“褡褳”一詞的描寫是北方鄉間農民外出時隨身攜帶的一種布袋,它搭在肩膀上,前后各一個口袋,用來放隨身攜帶的物品,活靈活現地寫出了“父親”的農民身份,突出了人物形象的窮困、滄桑之感。 再如“胡吣” 是上官呂氏罵司馬亭的話?!斑摹钡钠胀ㄔ捴馐?“嘔吐”,高密方言中引申為胡說八道之意。莫言以他獨特新銳的思維和視角,創造出新穎鮮活的個性語言,彰顯了語言藝術的無窮魅力 [5]。

總之,計算機不再是死板的機器,通過它分析文學作品,可以很靈活,也可以利用自己的“語言”對一句話,一段文字,甚至一篇文章進行全面處理,它可以利用自己的“眼睛”洞察每個字詞細微的差別,展現文學藝術之美。

參考文獻:

[1]天涯論壇[EB]. http://bbs.tianya.cn/post-develop-1101210-1.shtml

[2]唐毅.淺論莫言的創作特色[J].魅力中國,2009(13).

[3]努努書坊_小說在線閱讀[EB] http://book.kanunu.org/files/writer/8236.html

[4]高迭勤.莫言小說的敘述語言與視角[J] .寫作, 2001(11).

[5]邱曉嵐,南瑛.論莫言小說語言的藝術特色[J].漯河職業技術學院學報,2012(01).

[6]360doc個人圖書館[EB] http://www.360doc.com/content/11/1211/00/821761_171375026.shtml.2011-12-11

本文系“江蘇省高等學校大學生創新創業訓練計劃2013年立項項目(201351256028X)”的成果。

猜你喜歡
莫言
過去的年
愛如莫言
軍旅雅士
莫言的美食
莫言與鳥叔的關系
莫言《生死疲勞》英譯的格式塔詮釋
莫言對原始生命力的全新詮釋
莫言小說中的“人”“鬼”糾葛
莫言坦承自己當下的寫作狀態
莫言看電影《歸來》淚流滿面
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合