?

面向融合出版前沿主題發現的學術論文未來工作句挖掘研究

2024-01-29 08:43謝林蕾向熠章成志
情報工程 2023年5期
關鍵詞:類別語料庫研究者

謝林蕾 向熠 章成志,2

1. 南京理工大學經濟管理學院信息管理系 南京 210094

2. 富媒體數字出版內容組織與知識服務重點實驗室 北京 100038

引言

近年來,隨著數字化技術的快速發展,傳統出版業愈發受到數字出版的沖擊,它們開始主動尋求與數字出版的“融合”[1]。在此背景下,“融合出版”模式應運而生。作為一種新興的出版模式,融合出版可實現傳統出版與數字出版的共贏。借助互聯網等技術傳播快、成本低、影響力大的優勢[2],融合出版可改善傳統出版內容有限、發行渠道單一、出版周期較長且更新較慢的缺點[3-4],更好地促進知識傳播。自2014 年以來,融合出版開始引起學者的關注。之后,關于融合出版的相關研究文獻數量不斷增長。根據關鍵詞知網節的統計結果顯示,知網文獻庫中每年發表的中文文獻數量從2017 年前的不足10 篇已增長到現今的100 篇以上,2022 年相關文獻數量已達125 篇①檢索日期為2023 年8 月16 日。面對融合出版領域科技文獻數量爆炸式增長的現象,前沿研究愈發表現出其必要性。然而,如何對研究前沿進行更為精準的定位是科研工作者在科研選題時經常面臨的問題。未來研究能夠盡早捕捉研究領域未來的新興與熱點話題,幫助科研人員確定研究領域與對象,有針對性地開展研究。

學者通常在學術論文最后提出論文的未來研究工作展望,表明今后進一步的研究工作方向。本文將論文中描述未來研究工作的句子稱為“未來工作句”。系統性梳理和歸納特定領域的未來工作句,可以輔助我們更好地預測該領域的未來發展趨勢,為科研選題等提供有價值的參考。

本文以融合出版領域為研究對象,從該領域的學術論文中抽取未來工作句并進行分類,構建未來工作句識別與分類語料庫,并在此基礎上訓練機器學習模型從而實現未來工作句的自動識別。另外,本文基于未來工作句分類語料庫對不同類別進行分析,深入探究該領域的發展狀況。該文研究可為融合出版領域未來發展提供一定的借鑒。

1 相關研究概述

與本文相關的研究包括融合出版研究和未來工作句研究,本節從這兩個角度對相關工作進行概述。

1.1 融合出版研究概述

國內對“融合出版”的針對性研究要追溯到2014 年[5]。曹繼東[5]提出,“融合出版”是在“媒介融合”學術語境下,順應中國出版融合發展趨勢,基于數字化技術和互聯網思維產生的新興出版現象,是解決傳統出版和數字出版融合發展問題的新興出版范式。

此前,國內在數字技術融合與出版創新這一領域的研究對象主要是媒介融合與出版融合。媒介融合(Media Convergence) 的概念源于美國,1983 年美國馬薩諸塞州理工大學的浦爾教授[6]在其《自由的科技》一書首次正式提出媒介融合的概念。2005 年,媒介融合的概念經蔡雯教授引入到國內。在她發表的有關“媒介融合”與“融合媒介”的文章中,引入了美國新聞學會媒介研究中心主任[7]對“融合媒介”的定義——印刷的、音頻的、視頻的、互動性數字媒體組織之間的戰略的、操作的、文化的聯盟。然而,媒介融合與融合出版存在較大差異。媒介融合的研究主要側重在新聞傳媒業和電信業等的融合,較少涉及書刊出版業[8]。在該思想啟發下,從出版的視角出發,出版業也被指出有探索和實踐融合發展的需要與必然[9]。

2010 年起,國內逐漸興起關于數字出版與傳統出版融合的研究。2011 年,《新聞出版業“十二五”時期發展規劃》等都將數字出版納入重要扶持領域,加快傳統出版與數字出版的融合發展成為“十二五”時期產業發展的新目標[10]。2012 年,開始有“出版融合”這一概念。在新聞出版體制改革和媒介融合背景下,出版融合成為新聞出版業的發展方向。但是同樣,其與“融合出版”仍是兩個不同的概念,前者側重于“融合”而后者則更側重于“出版”[11]。

融合出版作為一種建構在數字化技術和互聯網平臺基礎上的新興出版范式[5],要求傳統出版與新興出版在內容、渠道、平臺、經營、管理等方面進行深度融合[12]。融合出版的目的在于實現出版內容、技術應用、平臺終端、人才隊伍的共享融通,從而構建組織結構、傳播體系和管理體系一體化發展路徑[8]。但這個新名詞提出之后的幾年間相關研究寥寥無幾。據知網文獻庫的中文文獻統計結果顯示,2019年后,國內有關“融合出版”的研究數量才有了較大幅度的增長,2020 年發表的文獻數量已超百篇,且較2019 年幾乎翻了一番。至今,融合出版已成為較為熱門的研究話題。越來越多研究者關注融合出版背景下優秀人才的培養[13-16],圖書編輯的素養提高[17-20]以及版權保護工作等[21]。然而,融合出版領域發展速度還是相對較慢,傳統出版業的數字化轉型正面臨比較大的技術困境[22],人才建設和機制創新上也有待突破。因此,我們需要更加精準定位該領域的未來研究方向,從而促進該領域更好更快發展。但目前國內幾乎還沒有研究者關注融合出版的未來研究,為彌補這一缺失,本文將從此角度出發,結合機器學習對融合出版領域進行深入探索。

1.2 未來工作研究概述

國內外現如今針對未來工作方面的研究數量相對較少。Hu 等[23]在2015 年以信息檢索、文本挖掘和數字圖書館領域為例,開展未來工作挖掘問題。他們通過一種基于正則表達式的方法抽取學術文本中的未來工作句,并將其定義為問題、方法、評估和其他四個類別,通過對比不同特征與機器學習模型的組合,實現不同領域的未來工作句分類。這是對論文中的未來工作句展開的首次探索,其創新性研究成果極大地推動了未來工作的開展。

隨后,Li 等[24]利用人工設定規則來識別未來工作句,從中提煉出關鍵詞并與標題和摘要中關鍵詞進行匹配,從而得到不同領域文獻與未來工作二者的概念上的聯系。Zhu 等[25]使用深度學習模型BERT 對2006—2016 年間JASIST 期刊論文上的1579 篇論文進行未來工作句抽取,并用層次聚類方法確定了未來工作句的四種類別,即支持性的、方法性的、識別潛在影響因素的和提出未來目標的。之后,也有一些研究人員開始使用規則匹配和BERT 相結合的方法來提取未來工作句[26]。近幾年Zhang等[27]使用機器學習模型對NLP 領域學術論文的未來工作句進行研究,成功訓練出具有較優性能的自動識別與分類模型[25,27-29]。但總體來看,針對未來工作句的研究數量較少,其大多是基于規則和統計的方法?;谝巹t的方法的優勢在于分類精度高,操作也比較靈活方便,但規則必須具備足夠的代表性。而且,隨著類目的擴大,需要設置的規則數量也會增加,從而使得規則的維護變得更加困難[30]。而基于機器學習的方法從一定程度上可以解決這些問題。本研究中也采用基于機器學習的方法進行未來工作句挖掘研究。機器學習相較于以往傳統方法在文本分類任務上往往都能表現出較好的性能。但是,使用單一模型進行分類難以全面地對文本進行特征提取,而且易忽略上下文語義關系,從而導致模型的分類效果欠佳[31]。近幾年越來越多的研究者開始探索模型的改進與融合,以提高分類效果[31]。

2 研究內容

本研究通過對融合出版領域的學術論文未來工作句進行挖掘研究來分析該領域的未來研究趨勢,探測融合出版領域的前沿主題,發現該領域新興與熱點話題。研究以知網文獻庫中的融合出版領域中文論文全文本為數據來源,利用人工標注得到未來工作句識別與分類語料庫;之后在識別語料庫上使用支持向量機、樸素貝葉斯和隨機森林三種機器學習模型與SelectKBest 特征選擇方法結合訓練性能最優的未來工作句自動識別模型;最后在分類語料庫基礎上針對未來工作句類別進行進一步占比與統計分析。本文的研究框架如圖1 所示。

圖1 研究框架圖

2.1 語料標注與預處理

2.1.1 用于未來工作句識別的分類語料標注

由于本研究的研究對象是融合出版領域的論文,為了保證數據的準確性與領域特性,本研究采用知網中通過查詢詞為“融合出版”的篇名搜索得到的融合出版論文為研究對象,從人工篩選(篩選過程中過濾篇名中“融合出版”沒有作為整體出現的論文)后得到的447 篇文章中抽取研究數據構建未來工作句語料庫。未來工作句的標注主要分兩個階段,第一階段抽取期刊論文的未來工作相關章節,第二階段從相關章節中抽取未來工作句。

第一階段是未來工作相關章節抽取。在抽取工作前,筆者觀察過大量該領域相關論文,發現未來工作句出現的位置幾乎都是文章末尾部分章節。這些章節主要分成兩種情況,一種是作者將未來工作單獨用一個章節來說明,章節名諸如“未來展望”“未來工作”等;另一類則是將未來工作放在文章總結性章節來論述,章節名諸如“小結”“總結”“結論”等。因此,本研究從論文的這些章節中抽取未來工作相關章節。之后筆者使用人工抽取的方式將每篇文章的篇名、發表年份以及未來工作相關章節抽出后用同一張工作表進行存儲,方便后續的研究與分析。

第二階段是未來工作句抽取,我們在之前構建的工作表的基礎上進行后續的未來工作句抽取工作。通過對語料進行分析,總結出未來工作句總體特征,并且參考先前研究者在NLP領域的研究成果[27],總結出針對本研究語料庫內未來工作句的判別標準。未來工作句的判別標準主要分成以下三種:

(1)對未來工作的直接提及,如“在未來工作中將進一步探尋…” “未來還需…”。例句:“目前科技期刊傳統出版亟待數字化轉型,而信息產業的數字出版還不成熟,足以看出擁有全面數字化特征的科技期刊融合出版模式將成為未來的發展方向[32]?!?/p>

(2)包含引出未來工作的詞語,如“后續我們將…” “下一步我們將…”。例句:“因此,如何培養兼具專業知識和新媒體操作技能的“兩棲型”期刊編輯人才是后續研究的重要方向[33]?!?/p>

(3)承上啟下的連接句,如“本研究還需進一步完善和深入” “未來的研究工作將具體包含以下幾個方面”。例句:“但是仍有不少可以開拓的空間[34]?!?/p>

本研究中,未來工作句抽取與標注過程嚴格按照標注規范進行,此階段主要是人工識別與標注,最終標注出未來工作句共216 句。另外,我們也標注出非未來工作句共388 句,最終形成標注語料庫情況如表1 所示。

表1 標注語料庫統計表

2.1.2 用于未來工作句類型分類的語料標注

為了更加深入了解融合出版領域的研究現狀,從而更精準定位其未來研究方向,本研究對于未來工作句集依據事先構建好的分類體系人工判定類別,形成本研究的未來工作句類型分類語料庫。本研究首先對語料進行閱讀與分析,發現此語料與先前研究者在對NLP 領域的未來工作句自動識別與分類研究[27]中采取的分類體系較為契合。該分類體系基于扎根理論構建,研究者將未來工作句分為方法、資源、評估、應用、問題和其他六大類別。本研究選取融合出版領域部分未來工作句進行預標注后發現,由于語料的領域特性,某些句子按照此分類體系歸類不是很恰當。因此,我們在此分類基礎上增設“管理手段”和“工具”兩大類別,并在“管理手段”下設置了“人員”和“管理制度”兩個子類別,具體分類標準如表2 所示。

表2 未來工作句分類表

2.1.3 數據預處理

經過預處理的數據,可以獲得更加準確的語言特征,從而更好地支持機器學習模型的訓練,并且能更加快速地獲得更為準確的訓練結果。為此,我們必須先完成數據的清洗、分詞、去停用詞等工作,從而為機器學習的準確性奠定堅實基礎。

(1)數據清洗

本文首先需要對文本進行一些去空去重操作,即處理一些無意義的空格、空行,其次,去除一些無用的標點符號,以方便后續進一步數據處理。

(2)分詞

由于中文沒有明確的句子分割標準,因此需要使用更復雜的分詞模型進行分析。本研究使用jieba①https://pypi.org/project/jieba/進行中文文本的分詞。為了提高分詞的準確性,本文通過去停用詞來進行分詞的優化。

2.2 模型建立與訓練

2.2.1 文本表示

通過使用文本表示,我們可以把數據轉換成計算機能處理的形態,比如向量或矩陣。本文采用的離散式中的TF-IDF[35],它是最為常用的文本特征權重計算方法。TF-IDF 可以用以評估文檔集合中的某個字詞或是語料庫中的某份文檔中的某個字詞的重要程度。當某個詞在一篇文章中出現的頻率TF 高,并且極少出現在其他文檔中,則我們可以判斷此詞具有出色的類別區分能力[36],其計算公式如下:

其中,Wi,j表示文檔j中第i項詞項的權重,N則表示集合中的文檔數量,此外,tfi,j表示文檔j中第i個詞的詞頻,dfi表示集合中出現當前詞項wi的文檔數[37]。

2.2.2 文本特征選擇

特征選擇可以減少冗余特征,保留具有較強區分能力的特征從而提高分類器的表現并且防止分類器過擬合[38]。其方法可以歸納為三類:過濾式、包裹式和嵌入式[39]。

特征選擇方法種類很多,本研究中主要采用SelectKBest。原因在于其他常用算法如特征遞歸消除算法(Recursive Feature Elimination,RFE)和隨機森林(Random Forest, RF)等,分別存在穩定性和選擇偏向的問題[40]。SelectKBest 是一種基于統計學原理的過濾式特征選擇方法[41],用于從n 堆數據中尋求價值最優的k類數據[42]。它可以根據給定的評價函數和得分,來選擇和排名特征。在使用SelectKBest 時,如果數據集中含有不止一個特征,可以采取評分函數進行特征篩選[43]。在本研究中,采用卡方檢驗(Chi-Squared Test)作為評分函數。此種特征選擇方法在分類任務上已有成功應用[44-45]。

2.2.3 文本分類模型訓練

未來工作句自動識別任務本質上屬于二分類問題。在本實驗中,我們選擇采用支持向量機(Support Vector Machine,SVM)、樸素貝葉斯(Naive Bayesian,NB)和隨機森林訓練未來工作句自動識別模型,通過對比模型性能選擇最優模型。

支持向量機是一類廣義線性分類器,它采用監督學習的方式對數據進行二元分類。SVM首先利用以內積函數進行定義的非線性變換將輸入空間變換到一個高維空間,之后在這個空間中來求解(廣義)最優分類面[46]。在本實驗中,采用核函數為linear 的LinearSVC 模型,最大迭代次數maxiter 設為5000,懲罰參數C 設為1.0。

樸素貝葉斯是一種基于概率統計的機器學習算法,其原理在于通過類別的先驗概率以及特征分布相對于類別的條件概率來計算未知文檔屬于某一類別的概率[47]。本實驗中選擇的是伯努利樸素貝葉斯(BernoulliNB),拉普拉斯平滑系數alpha 設為0.0001。

隨機森林是一種具有較高預測準確率的抽樣方法,利用bootstrap 重抽樣方法從原始樣本中抽取多個樣本,對每個樣本進行決策樹建模,然后組合多棵決策樹的預測,通過投票得出最終預測結果。本實驗中基評估器數量n_estimators 設為200。

3 結果分析

本節中我們結合未來工作句自動識別模型的訓練結果和未來工作句類別進行進一步分析。

3.1 未來工作句自動識別模型訓練結果評估

在研究過程中,需要對模型進行評估。通過采用K 折交叉驗證(K-Floder Cross Validation)[49],我們可以將大量的數據加入模型的訓練和預測,同時避免劃分訓練集和測試集時的隨機性,從而大大減少模型的不準確性,并且更好地體現出交叉驗證的概念。

本研究將數據集按9:1 劃分為訓練集和測試集,進行十折交叉驗證[50],并將結果進行平均,來比較判別分類模型的優劣。

在本研究中,我們將正確率(Accuracy)、精確度(Precision)、召回率(Recall)以及F1值作為評估指標[51],以期獲得更準確的結果。

以上指標的詳細定義如下:

由于精確率和召回率是一對矛盾的度量,模型評估中又往往需要同時考慮這兩項指標,F1值即為人們設計的滿足這一需要的性能度量指標[52]。故本實驗中我們最終以F1值來選定最優模型。

3.2 未來工作句自動識別實驗結果分析

我們將LinearSVC、BernoulliNB 和RF 三種模型分別與SelectKBest 特征選擇方法進行組合,使用網格搜索的方法調整超參數k。

以LinearSVC 模型的超參數k 的調整為例,我們首先將起點與終點分別設為100 和1500,步長設為40,得到k 在(460,620)內取值模型性能可能最優,如圖2(a)所示,之后我們在(460,620)區間上將步長設為10 繼續調參,得到k 的最優取值區間為(510,550),如圖2(b)所示,本實驗中我們取530 作為k 值。

圖2 LinearSVC 模型k 值調整驗證曲線

根據調整結果,最終得到k 值為530 時,LinearSVC 性能最優,加權平均F1達到了92.08%;k 值為48 時,BeroulliNB 性能最優,加權平均F1達到了91.77%;k 值為192 時,RF性能最優,加權平均F1達到了88.91%。具體結果如表3 所示。

表3 未來工作句自動識別模型訓練結果評估

對比支持向量機、樸素貝葉斯和隨機森林三種模型的訓練結果,我們得到LinearSVC 模型在未來工作句自動識別任務中性能最佳,加權平均F1值達到92.08%。這表明此模型可以很有效地區分未來工作句和非未來工作句。今后我們可以使用此模型在更大規模語料庫中進行未來工作句的自動識別,比人工抽取能節省更多時間與精力。

3.3 未來工作句類別分析

在未來工作句類別標注過程中,為了控制標注質量,我們采用雙人隔離標注的方式,之后將結果進行對比,出現分歧時,通過小組討論或者專家評議確定最終結果,確保標注的一致性;并且,標注結果再經由專家審核,從而保證標注質量。由于每個未來工作句都只能標注唯一的類別標簽,若一個句子中含有多于一種類別的未來工作句,則需要拆分后再進行類別標注。我們在標注后得到的分類語料庫基礎上對未來工作句類別進行進一步探究,主要包括未來工作句類別占比分析和分布分析。

3.3.1 未來工作句類別占比分析

(1)一級類目類別占比分析

筆者針對未來工作句識別語料庫中的未來工作句類別占比進行統計,結果如圖3 所示。

圖3 未來工作句類別分布圖

從圖3 中可以看出,方法類未來工作句占比最大,這表明,融合出版領域的研究者對于方法的改進與創新較為重視,關注新方法的探索,體系的建立與維護等。其次,問題類、管理手段和工具類未來工作句也占有一定比例,說明研究者也較關注該領域尚未解決的難題,并關心人員管理以及管理手段上的革新。同時,希望利用軟件、平臺和工具來加速融合出版領域的發展。但是,我們不難發現,評估類和資源類未來工作句占很小,僅有1%,這一方面表明研究者可能認為這兩個方面研究意義不大,即便改進和創新對該領域的發展也無法起到較大的推動作用。但另一方面,正是融合出版領域發展至今這兩個方向的未來研究有所欠缺,導致可能有些好的想法被忽略,而這往往可能正是突破點所在。這也為研究者的未來研究提供了一個很好的思路。

通過分析結果,我們可以預測未來融合出版領域的研究方向應該還是以方法、問題、管理手段和工具為主;而對于資源和評估類,未來可能需要在評估研究價值性后考慮是否要在這些方面投入更多精力,尋求突破。

(2)二級類目占比分析

為了更精準定位融合出版領域研究者的未來研究傾向,我們選取了占比最大的“方法”類別和我們比較感興趣的“管理手段”類別進行子類別占比分析。由圖4(a)中可知,在方法類別的研究中,研究者多傾向于探索或引入更適宜的新方法,因為融合出版本身就要求出版業在傳統方法上結合數字技術進行革新。此外,對相關體系建設與維護也是該領域一個較為重要的發展方向,研究者提議結合時代環境構建一個良好的體系環境,從而保障融合出版更好更快發展。這一方面需要出版業做出努力,另一方面也需要政府和社會提供政策支持與保障。

圖4 未來工作句子類分布圖

我們在管理手段下又分為人員和管理制度兩個子類,從圖4(b)中我們可以看到,人員管理與人才培養非常有必要。不僅需要編輯人員提高素質,不斷學習來自我提升,管理決策者也需要把握好行業形勢,重視優秀人才的培養,更好助力該領域發展。另外,在管理制度上也不能固守成規,需要適時創新。

3.3.2 未來工作句類別分布分析

此外,我們分別統計了2014—2023 年各年份的不同類別的未來工作句數量,進行分布分析,結果如圖5 所示。

圖5 未來工作句類別分布圖

從總體來看,方法類未來工作句的占比在近五年表現出明顯優勢,自2019 年后,該類別未來工作句數量大幅增長。由于近幾年各種新技術飛速發展,互聯網、云計算與人工智能逐漸滲透到各個領域,傳統出版業試圖在傳統方式上利用數字技術尋求新的突破。我們也可以預測到融合出版領域的未來研究應該還是以方法為主,在傳統方法基礎上加以改進與創新,相關體系建設與政策支持也是未來研究的重點。

另外,從圖中我們也可以看到,近幾年問題類的未來工具句數量也在不斷增長。隨著技術的飛快革新,研究者的創新想法愈來愈多。但數字技術的融入過程也會帶來很多問題。例如平臺建設方面資金投入不及時,版權保護與個人信息保護仍存在不少漏洞等。這些問題都有待未來研究者深入探索,尋求最佳解決方案。

而對于某些類別,譬如資源類和評估類,從2014 年至今未來研究方面都有所欠缺,說明此領域對數據和評估的依賴可能不如其他領域顯著;還有一種可能是對該領域的研究開始得較晚,這兩個方面還未有大規模研究者對其進行深入挖掘。未來可能需要該領域研究者評估價值性后考慮是否要加大投入。

3.4 未來工作句內容演化分析

為了更加深入了解融合出版領域未來工作的具體內容,探析該領域的前沿主題及其變化規律,我們對2019 至2023 年的未來工作句具體內容進行深入分析。首先我們提取各年份未來工作句數據集計算逆文檔頻率并篩選后的Top20 的詞項進行分析,總結近五年融合出版前沿主題以及演變趨勢,為該領域后續發展提供借鑒。

在基于逆文檔頻率的未來工作句內容分析時,我們首先抽取了Top50 的詞項,經過觀察發現,其中有些詞是“融合出版”和“未來工作”相關詞,以及一些無實際意義動名詞和程度副詞。為了更好地分析前沿主題本身,我們在所有詞項提取結果中均刪除了這些詞,并在篩選后的結果中取Top20 的詞項進行分析,詞項內容如表4 所示。

表4 未來工作句分類表

從各年份的Top20 詞項內容中,我們可以很清晰探察到各年份融合出版領域的前沿主題的差異及變化趨勢。

2019 年,融合出版領域重點關注的前三位分別是“媒體”“科技期刊”與“傳播”。結合之前的背景研究,2019 年融合出版領域研究論文數量大幅增長,這一年發表的論文中,研究者大多還是從“媒介融合”視域出發去研究融合出版領域問題,并且重視領域相關概念、方法等的傳播。其次是對期刊和編輯等的要求,鼓勵期刊突破傳統出版方式,發揮“領頭羊”作用,積極利用數字出版優勢;鼓勵編輯努力提升素養,轉變觀念,致力于融合出版領域的發展。另外,這一時期研究者也開始重視技術的利用,主要是基于互聯網信息和技術與傳統出版的融合來實現創新與突破。

2020 年,融合出版領域重點關注的前三位分別是“技術”“內容”與“創新”。這一時期該領域在建立好領域根基后,開始尋求技術層面的突破。另外,我們看到“管理”“問題”與“平臺”的排名也較靠前,研究者也開始意識到管理與工具的重要性,融合出版不僅僅依靠出版社與編輯提升與轉型,相關企業也需要在營銷管理、體系構建與人才培養上傾注更多精力,另外,融合出版發展遇到的一些問題也不容忽視,需要多方共同深入探究并尋求解決方案。

2021 年,融合出版領域重點關注的前三位分別是“編輯”“技術”與“問題”。這一時期,融合出版領域對“人”提出了更高的要求,更加注重人才培養與管理,“技術”與“問題”仍舊是該領域關注的焦點。另外,我們觀察到,該時期的Top20詞項中出現了“需求”“用戶”“產品”“服務”這類詞,該領域開始考慮到用戶需求與服務,這說明融合出版領域開始重視應用層面的問題。

2022 年,融合出版領域重點關注的前三位分別是“技術”“媒體”與“內容”。在考慮到應用層面后,研究者發現要著重解決的還是技術上的問題,并且主要是出版內容的融合,這才是提升應用性能的最佳途徑。這一時期融合出版的前沿問題主要是如何改進與擴展技術來解決應用層面的問題。另外,我們發現“少兒”與“少兒科普”排名也較高,這也是融合出版領域服務視野拓展的表征。由于少兒是圖書閱讀的一類較大數量群體,所以也是傳統出版與數字出版融合浪潮中受影響較大的一類群體,要更加重視這類群體的服務層面的問題。

到了2023 年,融合出版領域重點關注的前三位與前一年相差無幾,分別是“技術”“內容”與“創新”。說明融合出版領域聚焦點沒有發生太大變化。值得注意的是,這一時期,“教育”一經出現便排到了第四的位置,說明這一時期融合出版領域從開始的“少兒科普”考慮到更為全面深入的問題,例如融合出版以何種方式融入教育中,如何在青少年培養中發揮最大作用等。另外,“高質量”“高質量內容”和“高質量發展”的出現讓我們看到該領域發展到這一時期,基礎層面的構建工作已基本完善,開始追求高質量高水平發展,這也是一個領域發展趨于成熟的象征。

結合融合出版領域近五年的未來工作句中Top20 詞項,我們可以看到該領域從起步走向成熟的演化過程,這五年中該領域發展側重點也經歷了一個較為鮮明的變化。另外,每年都有新的前沿主題的出現,這些前沿主題從開始受到關注到問題的發現與方法的探究再到應用層面的完善恰恰也是該領域一步步發展與壯大的具象表示。

4 結語

本文為探測融合出版領域前沿主題與未來有意義研究方向,通過采集知網文獻庫中的中文文獻數據,結合機器學習進行未來工作句挖掘研究。研究主要利用融合出版領域論文為數據構建了未來工作句識別與分類語料庫,在此識別語料庫基礎上使用支持向量機、樸素貝葉斯和隨機森林三種機器學習模型與SelectKBest特征選擇方法進行未來工作句自動識別模型訓練,對比模型訓練結果選擇出性能最優的LinearSVC 模型。該模型的F1值達到了92.08%,表明該模型可以很好地從文本中識別出未來工作句。另外,我們還基于未來工作句分類語料庫對未來工作句的八大類別進行更進一步的研究,主要包括占比分析與分布分析。結果表明,融合出版領域的研究者更傾向對方法和問題類未來工作的研究,他們更關注該領域方法的改進與創新,并關心尚未解決的難題及有意義的新問題,對于資源和評估方面則關注較少。由此我們預測該領域未來的研究方向也是偏向方法與問題方面,而資源和評估方面可能需要研究者衡量研究價值后決定是否需要對其展開更加深入的研究。最后,本研究還通過對融合出版領域未來工作句本身內容研究來分析并總結該領域近五年的前沿主題的演化趨勢,從而更好探析該領域過往前沿問題研究重點及其變化,并為未來研究提供借鑒。

本文也存在一定的不足,例如語料庫規模較小且未采集英文論文數據,訓練的模型還有待在更大規模語料庫上測試抽取效果,另外,還未使用深度學習模型對比模型效果。后續我們將進一步擴大語料庫規模,擬加入英文論文數據,且擬采集知網文獻庫之外的數據,例如微信公眾號文章和新聞報道等;之后也將在更大規模語料庫上測試模型的自動識別效果,也可進一步測試模型在其他領域語料上的適應性;此外,未來將使用深度學習模型與傳統機器學習模型作對比,從而訓練性能更優的未來工作句自動識別模型,提高識別準確率。

猜你喜歡
類別語料庫研究者
高等教育中的學生成為研究者及其啟示
《語料庫翻譯文體學》評介
研究者稱,經CRISPR技術編輯過的雙胞胎已出生??茖W將如何回應?
研究者調查數據統計
服務類別
醫生注定是研究者
基于JAVAEE的維吾爾中介語語料庫開發與實現
論類別股東會
中醫類別全科醫師培養模式的探討
聚合酶鏈式反應快速鑒別5種常見肉類別
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合