?

基于深度卷積神經網絡的科研項目不端行為識別研究

2021-03-21 07:04楊生舉
中國建材科技 2021年4期
關鍵詞:不端科研項目語句

楊生舉

(甘肅省科學技術情報研究所,甘肅 蘭州 730000)

0 引言

近年來,國家實施創新驅動發展戰略,科技經費持續增加,科研項目數量大幅增長。隨之而來的問題是,科研項目不端行為(Scientific Research Project Misconduct,SRPM)層出不窮,如重復申報、多頭立項,申請書偽造、抄襲、剽竊等現象。

從2006年“漢芯事件”開始,越來越多的科研不端行為被披露、調查、處理。2015年科技部在申報的項目中發現,因重復申報,有13%的973計劃項目和20%的高新技術領域項目未能通過審查[1]。2016年12月12日,國家自然科學基金委員會通報了61份科研不端行為案件處理決定[2]。甘肅省通過項目相似度檢查系統查出2016-2017年5904項申報項目中相似性80%以上的占4.5%。

SRPM治理具有復雜性和艱巨性,不端行為很難被發現,原因可能是單一數據庫源查全率低,新的項目、成果、獎勵、報告和論文數據庫同步滯后,申請者對申報書有意識“修飾”,以及網絡時代造假手段多樣化等。

深入研究SRPM識別技術對遏止學術腐敗、保護原創成果、凈化學術氛圍、推進科研誠信有重要的現實意義。SRPM治理是一個世界性難題,也是我國科技創新面臨的重大課題。

1 國內外研究現狀

1.1 科研不端識別系統及技術分析

治理和防范科研不端行為需要先進的技術手段作為支撐。國外高校對于反剽竊的研究高度重視,技術較成熟,科研不端識別系統已成為歐美高校的必用軟件。Turnitin是全球最權威的學術不端識別系統,幫助科研工作者偵測和比對科研成果中含有的不恰當引用、潛在的剽竊行為。CrossCheck能最大程度檢查學術不端行為,全球會員單位包括自然出版集團(NPG)、英國醫學期刊出版集(BMJ)和美國科學進步協會(AAAS)等。

國內科研不端識別系統代表性的是CNKI科技期刊學術不端文獻檢測系統(AMLC)、萬方論文相似性檢測系統和維普通達論文引用檢測系統[3]。

1.2 神經網絡在語義相似度計算中應用分析

科研項目不端識別的核心技術是語義相似度計算。最早的神經網絡詞義相似度計算模型是神經網絡概率語言模型,最有影響力的是Bengio等于2003年提出的神經網絡語言模型(Neural Network Language Model,NNLM),研究者相繼提出CBOW及Skip-gram等簡易模型,訓練詞向量一般采用的算法是Hierarchical softmax[4]。

國內外學者對將神經網絡應用于語義相似度計算進行了卓有成效的研究。蔡旭勛(2017)研究基于神經網絡的詞義相似度計算及其在文本檢索技術中的應用,其算法提升文本檢索的準確率、召回率與綜合評價指標[4]。K. Selvi(2014)為了應用奇異值分解,在給定的文檔中建立了詞對的頻率,提出了一種求解相似度量的人工神經網絡算法[5]。Rui Cao(2015)基于語義相似性算法和人工神經網絡的知識密集型的研究,提出了一種廣義回歸神經網絡的語義相似度算法[6]。Hua He(2016)顯式地模擬成對詞的相互作用,并提出一種新的相似焦點機制來識別重要的對應關系,以便更好地進行相似性度量[7]。戶保田(2016)提出了基于深度卷積神經網絡的語句表示模型,通過多層交疊的卷積和最大池化操作對語句進行建模[8]。幸凱(2017)提出了基于主題詞向量和長距離關聯的卷積神經網絡句子文本表示模型[9]。Zeng Shuifei(2017)提出了一種改進的文本表示模型提取文本特征詞向量方法,能較好處理高質量的文本特征向量提取和表達序列[10]。以上研究為本研究提供了借鑒和參考。

2 基于卷積深度神經網絡的語句匹配架構

2.1 語句匹配架構

如圖1所示,將語句SX和SY中的詞向量按照詞的順序排列。詞向量通過Word2vec訓練得到,維度為50,在兩個語句上分別使用窗口大小為k1和k2的滑動窗口。

圖1 基于卷積深度神經網絡的語句匹配架構圖

g(·)—為“門函數”;

2.2 語句匹配架構的訓練

式中,θ—卷積架構與多層感知機的模型參數;

α—正確的匹配對 s (x,y+)得分比錯誤的匹配對s (x,y-)得分至少大的差值。

對于給定的語句對(x,y),其輸出的匹配分數為s (x,y)。然后在其上使用邏輯回歸分類器(logistic regression),則其類別“1”的概率見公式(6):

對于給定的語句對(x,y)的損失函數,見公式(7):

式中,?取值為“0”或“1”,參數的更新采用基于隨機批處理的后向傳播算法。

3 結果與分析

3.1 試驗數據

試驗數據采用MSRP (Microsoft Research Paraphrase Corpus)。每個句子對的語義等效結果用0和1表示,1表示等效,0則反之。

3.2 評價指標

試驗結果采用了精度Prec、準確度Acc、召回率Rec和F值作為衡量標準[11]。4個評價指標定義如下:

Prec=(TP)/(TP+FP)

Acc=(TP+TN)/(TP+TN+FP+FN)

Rec=(TP)/(TP+FN)

F=(2×Prec×Rec)/(Prec+Rec)

其中,FP、TP分別是預測相似但實際不相似、預測和實際都相似的句子數量;TN、FN分別是預測和實際都不相似、實際相似但預測不相似的句子數量[12]。

3.3 試驗結果

結果如表1所示。表中L&C和Lin是基于知識庫實現的方法,PMI-IR和LSA是基于語料庫實現的方法。

表1 文本相似性計算結果對比%

從表1可以看出,本文所用建模及計算方法有較高可行性。

4 結語

SRPM造成了學術資源和學術生命的極大浪費,破壞了正常的學術秩序,扼殺了創新活力,違背科學精神,加劇了社會腐敗的蔓延,阻礙了科技進步和社會發展。本文研究大數據環境下科研項目不端行為的特征提取方法,提出基于深度卷積神經網絡(DCNN)的語句表示模型和匹配架構,并對其進行有效訓練,以學習得到語句匹配在不同層次上的表示,提高模型的表示能力,從而提高文本相似度計算的準確度和精度。

猜你喜歡
不端科研項目語句
我校橫向科研項目再創佳績
重點:語句銜接
航天科研項目評審工作的思考與探索實踐
論文作者學術不端行為類型
申請科研項目,不應以職稱論高下
《高等學校預防與處理學術不端行為辦法》9月1日起正式實施
學術不端檢測系統在數據庫間互聯互通的可行性研究
論科研項目檔案管理
《肝膽胰外科雜志》來稿中常見的學術不端問題
如何搞定語句銜接題
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合