?

新文科背景下的日語語言文學碩士論文計量文獻學考察(2012—2022)

2023-12-12 11:09劉善鈺王子睿
文化與傳播 2023年4期
關鍵詞:碩士論文語言文學畢業論文

劉善鈺,王子睿

引 言

2019 年教育部召開“六卓越一拔尖”計劃2.0啟動大會,正式拉開了新文科建設的序幕。新文科是指對傳統文科進行學科重組,實現文科內部以及文科與自然科學學科之間交叉與融合之后形成的文科。[1]新時代的文科發展要求外語研究人員摒棄學科本位主義,使用跨學科思維與方法解決實際問題。碩士研究方向一定程度上體現了某一院校該學科的研究方向。通過對日語語言文學專業11 年來的碩士畢業論文進行量化研究,可以對該學科各院校的研究特點及強勢研究領域進行描述和分析。在新文科建設的大背景下,研究日語語言文學專業學科的量化規律,有助于掌握當前研究生的研究方向,以利于觀察碩士論文研究方向與院校之間的聯系,為新文科建設提供可觀察的真實數據支撐。

日語語言文學專業(學科代碼:050205),一般被稱為日語專業學術型碩士(以下簡稱日語學碩),是外國語語言文學的二級學科。日語筆譯和口譯專業(學科代碼:055105),一般被稱為日語專業的專業型碩士(以下簡稱日語專碩),是翻譯碩士專業的二級學科。日語學碩和專碩是日語專業本科生報考碩士專業的主要方向。前者主要從事日語語言學研究、日本文學研究、日本文化研究,后者主要從事日語的口、筆譯實踐以及翻譯學研究。有關日語專業碩士論文的前沿研究中,閆鑫基于問卷調查法和因子分析等方法對100 名日語專業碩士生的畢業論文選題方向進行了考察,指出當前研究生碩士論文課題的制定36%是由個人興趣愛好來決定,日語語言文學專業的研究生在制定論文題目時,存在專業知識不足和學術能力不夠的特點。[2]鑒于當前日語語言文學專業亟須在新文科背景下進行適當的學科調整,以重新審視當前學科名與實的問題,有必要針對日語語言文學專業碩士畢業論文數據進行分析研究。本研究使用R 語言工具對2012 年到2022年11 年間的日語學碩畢業論文進行文本挖掘與量化分析,目的主要有二:第一,了解學科發展動向、為日語語言文學專業的研究生提供選題思路;第二,了解不同高校的熱點研究方向,為該學科研究生階段的高校教育進行新文科改革提供實證數據。

一、文獻計量研究與研究設計

(一) 文獻計量研究

文獻計量法(Bibliometrics)是一種用于描述和分析某一學科或研究領域的動態與進展的計量方法,在現代計算機技術的輔助下,可以用清晰明了的知識圖譜來可視化文獻分析的結果。文獻計量法作為一種定量分析方法,以科技文獻的各種外部特征作為研究對象,采用數學與統計學方法來描述、評價和預測科學技術現狀與發展趨勢。[3]文獻計量學的可視化圖可以方便地進行數據的解釋與說明,對研究對象進行詳盡的統計與分析,同時有助于挖掘信息之間的內在聯系。

(二) 研究設計

在文獻計量分析中常見的文獻計量分析工具有citespace、vosviewer、cooc 等軟件,本研究使用編程軟件R 語言進行數據處理以及可視化。R 語言是一個自由、免費、源代碼開放的軟件,其擁有便利、快捷的數據處理與較強的可視化能力。在R 語言編程與可視化技術的輔助下,可以用清晰明了的知識圖譜來可視化文獻分析的結果。

在使用數據方面,本研究主要通過中國知網抓取了2012—2022 年的日語語言文學專業碩士畢業論文文獻數據,去除了部分噪聲數據,保留了包括畢業年份、畢業學校、論文題目、論文摘要、論文關鍵詞等信息。運用文獻計量學的方法對以上信息進行多維度考察,例如不同年份學碩的貢獻數量、不同高校的貢獻數量、不同高校的研究方向等等。但由于部分高校的碩士論文不收錄在中國知網數據庫中,且查找困難,本研究不將其作為數據,只將知網收錄的4 699 條數據集(檢索時間節點為2022年12 月30 日)作為本研究的觀測數據。

在工具方面,選取R 語言的tibble 包、ggplot 包、quanteda 包、stringr 包、jiebaR 包作為數據處理工具,對數據進行結構化處理,基于詞袋模型(bag of words)對文本數據進行可視化分析,以高校為單位計算10 年來所有畢業論文的關鍵詞和摘要文本。

在統計方法上,本研究除了描述統計,還使用了無監督學習算法中的對應分析法(Correspon dence Analysis,簡稱CA 分析)與隱含狄利克雷分布主題模型(Latent Dirichlet Allocation,簡稱LDA模型)。無監督學習最大的特點即不需要手工標注的訓練集,僅需要文本文檔以及指定主題或者聚類的數量k 就可以對大規模的數據進行分類、降維。對應分析法的主要思想在于揭示同一變量的各個類別之間的差異,以及不同變量各個類別之間的對應關系。本研究利用對應分析法考察不同高校和不同學科關鍵詞之間的對應關系,LDA 模型可以分析所選取論文摘要中所隱含的主題,幫助理解學科研究的內在主題。

二、數據分析

(一) 文獻數量年度分析

為了了解不同年份的論文產出情況,對每個年份的日語語言文學專業碩士論文數量進行了統計分析,用ggplot2 包繪制點圖與擬合線(見圖1)。觀察圖1 可知在過去的11 年里,日語語言文學專業的畢業論文數量在總體上呈現逐年減少的趨勢,尤其在2021 年數量降到最低,只有255 篇,可以推測2018 年的招生數量明顯低于其他年度,或由于新冠疫情等因素影響導致無法按時完成畢業論文的人數增加。將數據按照院校類別變量進行分類,即分為綜合類院校、師范類院校、外國語類院校來觀察,可以看出隨著年度的增加,綜合類院校及師范類院校的貢獻數量減少,而外國語類院校貢獻數量呈現增加的趨勢。

圖1 2012—2022 各年份論文貢獻數量

(二) 論文貢獻單位分析

通過統計綜合類院校、師范類院校、外國語類院校三類院校的論文貢獻數量得知,11 年里日語語言文學專業碩士論文的貢獻數量在不同類別高校占比不同,由低到高依次為師范類院校19.98%、外國語類院校29.73%、綜合類院校50.29%。進一步觀察各院校的具體論文貢獻數量(見圖2)發現,在綜合類院校中吉林大學、湖南大學、黑龍江大學貢獻數量排列前三,浙江工商大學和哈爾濱理工大學雖為非文科類院校但論文貢獻數量也較多,位列第四、第五。在外國語類院校中,北京外國語大學、上海外國語大學、廣東外語外貿大學的貢獻數量排列前三。在師范類院校中,東北師范大學、華中師范大學、遼寧師范大學的貢獻數量排列前三,但總體數量低于綜合類院校和外國語類院校。

圖2 碩士論文貢獻單位對比

(三) 學科研究領域分析

語言類研究生的研究方向大多集中在語言學、文學、翻譯學等人文社科領域,又因研究方法、研究對象、研究工具等的不同,上述的學科領域下又可細分為不同的研究方向。例如語言學中的認知語言學與語料庫語言學,文學中的倫理學、比較文學等,翻譯學下又可以細分為口譯、筆譯研究,此外還涉及文化、國別研究、國際關系研究等等。本研究通過正則表達式抽取了該學科碩士論文的關鍵詞并按研究領域對論文進行分類,例如包含“二語習得”“偏誤”“助詞”等語言學常見詞語的列為語言學研究領域內的論文,包含“譯本”“譯者”的研究歸為翻譯類研究,包含“口譯”“同聲傳譯”等的將其視為口譯研究,包含“小說”“文學作品”“變異學”“比較文學”等字符的研究劃為文學類研究。此外,本文研究還抽取了語料庫工具類的關鍵詞,觀察不同學科研究之間以及不同高校的日語語言文學學碩論文中語料庫研究方法以及工具的使用情況。

在數據抽取方面,本研究將每一篇論文的摘要作為一條觀測數據,院校、論文年度等其他因素作為變量。如某論文摘要中有“譯本”二字,則此篇畢業論文則被認定為翻譯研究領域的論文,以此類推計算所有研究領域內的論文數量。本研究選取了對應分析(CA 分析)作為多元統計手法。作為一種視覺化的數據分析方法,對應分析能夠將不同學科關鍵詞作為變量,將學校單位作為觀測值,觀察關鍵詞與學校單位之間乃至關鍵詞之間、學校單位之間的相關關系。

如圖3 所示(因高校數量太多,僅選取累計解釋度最高的前30 個高校展示),語言學相關的詞語與語料庫研究方法相近,說明語言學研究領域的論文與語料庫研究工具相關性更高,互動性更強,但也說明了語料庫技術在其他研究領域的應用研究還不夠深。例如文學、口譯等研究領域,這些研究往往以內省式的傳統研究方法為主,缺乏基于定量數據的分析。通過圖3 可以看到湖南大學日語學碩的畢業論文與語料庫研究方法分布在非常近的地方,其周圍上海外國語大學、上海交通大學在此類研究中也比較突出。另外,文學研究領域方面,周圍聚集的高校比較多,說明這些高校的日語語言文學專業碩士生的研究方向還是以文學研究為主。此外,北京第二外國語學院在口譯研究方面較為突出,浙江大學與浙江工商大學等高校的研究方向多集中在國別研究方面。

圖3 各院校畢業論文研究領域對應分析圖

圖4 為畢業論文信息中包含“語料庫”一詞的論文數量統計圖,從中可以發現上海外國語大學、大連外國語大學、北京外國語大學、湖南大學、吉林大學等高校使用語料庫的論文數量較多,其中上海外國語大學在語料庫使用方面格外突出,共計有64 篇碩士論文使用了語料庫技術。

(四) 文獻關鍵詞分析

畢業論文關鍵詞是論文主體內容的高度凝練,本研究選取了畢業論文關鍵詞中出現頻率最高的50 詞,構建詞袋模型與特征矩陣,構建固定上下文窗口的共現矩陣(Co-Occurrence Matrix with a fixed context window)。例如,“谷崎潤一郎”“中國”作為一組關鍵詞在一篇論文中出現,共計詞數為1,但是在別的論文中可能是“谷崎潤一郎”“唯美主義”,那么就可以將“谷崎潤一郎”作為中心向其他兩個點畫線,某詞出現的頻率越高,這個詞語的中心性就越強。由圖5 可以清晰地看到不同關鍵詞之間的聯系與出現頻率,例如“正用”屬于二語習得研究領域的詞語,該詞與“中國人日語學習者”“問卷調查”共同出現的頻率較高,所以分布在相近的位置。高頻出現的作家名字有“夏目漱石”“三島由紀夫”“松本清張”“谷崎潤一郎”“吉本芭娜娜”等,說明在日語語言文學專業的論文中多以上述的文學作家為研究對象,其中比較研究、女性觀、女性意識、戰爭觀是此類論文主要的研究視角(見圖5)。

圖5 關鍵詞共現分析圖

文學、翻譯學研究的關鍵詞往往會注明研究的作品,即文學作品名。本研究收集的碩士論文關鍵詞中含有書名號的有804 條,約占比17.1%,說明以文學作品為研究對象的碩士論文占比不少。用正則表達式檢索所有論文中帶有書名號的關鍵詞,并對其進行頻數統計,導入WordCould2 包進行詞云圖繪制得到圖6。觀察圖6 可以看到位于詞云圖中心的有日本文學經典古典名著《源氏物語》、日本作家村上春樹的長篇小說《1q84》、川端康成的中篇小說《雪國》,這些作品名出現次數均大于10 次,日語語言文學專業研究生通過多個角度對這些文學作品進行了探討。此外還有中國古典文學作品例如《紅樓夢》《聊齋志異》等的日譯也被反復分析研究。

圖6 研究對象文學作品詞云圖

此外,本研究還抽取了碩士論文關鍵詞中出現的文學作家名,制作成詞云圖,如圖7 所示。其中關鍵詞中太宰治的出現頻率為50 次,是目前日語語言文學專業研究生文學研究中最常見的研究對象,其次是夏目漱石38 次、川端康成30 次、井上靖25 次,安部公房21 次,說明這些作家是日語專業碩士論文中常見的研究對象。

圖7 以作家為研究對象的詞云圖

(五) 文獻摘要分析

使用隱含狄利克雷分布主題分類模型(LDA)來分析日語語言文學學碩論文摘要中所隱含的主題,主要方法是:在使用jiebaR 分詞時,將論文中的關鍵詞作為用戶詞典導入,提高摘要部分的分詞精度,再對論文摘要進行分詞后使用LDA 模型將每篇文檔的主題按照概率分布的形式算出,結果如圖8 所示??蓪⑷照Z學碩的畢業論文主題歸納為以下五大類:中日政治經濟社會研究、中日思想發展史研究、對照語言學與翻譯學研究、文學與文學意象研究、二語習得與應用語言學研究。這說明日語語言文學專業的畢業論文多以傳統文科研究主題為主,主要涉及社會文化、文學與翻譯、語言學與應用語言學領域的內容。

圖8 日語學碩論文五大研究主題

三、結果與討論

(一) 結果分析

從數據分析可以得知,大多數高校的日語專業碩士論文都以文學研究為主,且文學類研究領域的研究對象重復率較高。語料庫技術與語言學之外的研究領域結合不夠密切,使用數理化統計思維進行定量研究的碩士論文數量偏少。雖有個別高校在語料庫使用上表現突出,但比較集中在語料庫與語言學的結合上,語料庫技術與文學、國別區域等方面的研究結合較少。通過LDA 模型分類得到的學科五大研究主題中顯示,日語語言文學專業的畢業論文仍然以傳統人文研究為主,缺乏對日本社會、國別等領域的關注,此類“非語言文字”類的研究只有在少數碩士論文中出現。

(二) 展望

日語語言文學研究不應只以語言文學為主,應該將更廣泛、更具涵蓋力的日本學、東亞學納入學科研究的范疇。[4]但實現此目標不僅需要日語語言文學專業研究生的自我驅動,還需要各大高校建設、發展和對接新文科研究的日語專業研究生的師資隊伍,設置除語言課程以外的其他課程,與自然語言處理等領域進行融合、促進傳統文科的文文交叉、文理交叉。[1]此外,應當合理設置日語學科課程,積極促進外語學科與其他學科之間的交流,促進學科教育的改革與長足發展。[5]在傳統文科面臨巨大變革的背景下,碩士作為在高校中最具有創新力的群體之一,應該積極強化對不同知識領域的了解、學習,在繼承傳統人文研究的基礎上,積極從“本體研究”走向“應用研究”,積極使用跨學科方法,結合跨學科知識進行研究。日語語言文學專業研究生在碩士論文選題時應當避免已經重復研究的內容,將視野投向更廣闊的跨學科研究方向,例如與心理學、社會學、科技等學科和領域進行交叉,貼合新文科發展的潮流,使得日語學科的研究能夠更好地對接國家和社會對日語高等教育人才的需求。此外,日語語言文學碩士還應該積極掌握數字化技術的應用方法,在研究中嘗試數字人文視角的定量研究范式。

猜你喜歡
碩士論文語言文學畢業論文
中國語言文學學科
外國語言文學、美術學學科簡介
“本科畢業論文要不要取消”為何長期無解
淺析英語語言文學中情境教學法的應用
Next-Generation Materials for Cutting Tools: Superhard Materials
漢語國際教育專業泰國來華留學生碩士論文語言特征分析及教學啟示
“雙一流”視域下導師學術品質對研究生培養質量的影響——基于安徽省四屆優秀碩士論文評選的實證研究
我的月子畢業論文
我的月子畢業論文
伊犁師范學院人文學院中國少數民族語言文學(錫伯語言文學)
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合