?

融合多源異構在線評論的開放式創新社區創意采納預測研究

2024-02-04 09:45劉嘉宇祝琳琳李世鈺
情報學報 2024年1期
關鍵詞:異構注意力預測

劉嘉宇,李 賀,沈 旺,祝琳琳,李世鈺

(吉林大學商學與管理學院,長春 130012)

0 引 言

黨的二十大報告全面系統深入地闡述了中國式現代化的科學內涵[1]。隨著數智化技術和知識經濟的發展,越來越多的企業意識到僅僅依靠內部資源進行高成本的創新活動,已經難以適應快速發展的市場需求以及日益激烈的企業競爭。在這種背景下,“開放式創新”逐漸成為企業創新的主導模式[2]。Chesbrough[3]首次明確提出了開放式創新的概念,該觀念強調用戶不再是產品的被動接受者,而是企業在市場實踐中取得競爭優勢的重要力量。以小米MIUI 論壇、Dell's Idea Storms 和Apple Develop‐er 等為代表的社區,更是開放式創新理念的生動實踐,通過整合用戶創意和企業內部資源,構建了用戶和企業雙贏的創新生態。在該類開放式創新社區中,用戶圍繞產品使用經驗、改進建議、新創意等,產生了大量的在線評論[4]。這些在線評論包含了許多有用的信息,如產品創意,這些信息不僅可以為消費者提供購買決策支持,而且可以讓生產商和供應商識別產品創新機會。然而,社區中同樣充斥著眾多無實質性內容的信息,這嚴重影響了企業吸納用戶創意方案的效率。因此,如何在海量的用戶評論中快速篩選出有價值的創意,加快企業創新資源的涌入,即創意采納預測成為企業和社區平臺管理面臨的重要問題。

既往以在線評論為數據源預測開放式創新社區中的創意采納研究主要依靠單一的文本特征[5-6]。不可否認的是,文本評論中片面、過時,甚至虛假、錯誤的信息廣泛存在,嚴重降低了基于在線評論的創意采納預測的效率和準確性[7]。在線評論數據來源不同,形式多樣,同一對象的不同表達之間存在很大差異,迫切需要完整、有效、靈活、高擴展性的數據集成框架和數據融合方法,高效地預測有價值的用戶創意。因此,本文提出了一種多源異構在線評論數據融合基礎上的創意采納預測方法。多源異構作為大數據的基本特征之一,其概念源自軍事領域,即通過多傳感器獲取多層次、多方面的信息,并對這些信息進行整合、加工和處理,以達到特定的目的[8]。在社會化環境中,特別是電子商務領域,多源異構在線評論的定義至今仍不清晰,這嚴重限制了多源異構在線評論的價值發掘和利用。為實現基于多源異構在線評論數據融合的創意采納預測,本文基于信任轉移和價值共創理論,對多源異構在線評論做出了解釋。此外,在多源異構數據融合任務中,現階段的數據挖掘手段存在研究粒度較粗、忽視圖邏輯作用、研究體系不完善等問題?;趫D論的圖模型,作為一種數據挖掘手段,能夠使數據集之間實現基于語義的整合,不僅能夠提供基于語義的思考框架,還能在更高層面上考慮各數據倉儲的相互聯系[9]。當大量的在線產品評論數據映射成一個整體圖模型時,有助于產生新的規律,進而提供知識發現的新視角。

鑒于以往研究中存在的問題和應用圖模型進行數據挖掘的優勢,本文提出了融合多源異構在線評論的開放式創新社區創意采納預測研究,主要研究內容包括:第一,歸納了信任轉移和價值共創視角下多源異構在線評論的定義;第二,實現了基于圖模型的多源異構在線評論數據的特征級融合;第三,提出了基于多源異構數據融合的開放式創新社區創意采納預測模型;第四,驗證了圖模型中的圖注意力網絡在分類場景中的應用優勢。通過上述研究,旨在幫助開放式創新社區管理者暢通與外部創新資源的溝通交流渠道,及時響應外部需求來改善產品和服務,進而贏得市場優勢。

1 相關工作

作為創意生命周期的最后環節,創意的采納與否成為衡量其質量和價值的標準,在創新過程中發揮承上啟下的作用,最終影響企業創新的方向和效果[10-11]。然而,隨著開放式創新社區用戶建議的過載,如何在資源有限的情況下幫助企業和社區平臺預測有價值的創意,已成為國內外研究的一個熱點?,F有研究主要集中在以下幾個方面。①領先用戶識別研究。這類研究認為領先用戶提出的建議往往是高價值的創意。例如,黃璐[12]在研究Salesforce社區時,通過細分用戶群體,構建了基于AdaBoost算法的開放式創新社區創意采納預測模型;Marti‐nez-Torres 等[13]應用粒子群優化方法提取用戶參與特征,以識別具有更多機會產生潛在可采納想法的領先用戶。②基于在線評論文本情感分析的開放式創新社區創意采納預測。例如,王婷婷[14]通過分析評論情感對創意采納的影響,采用支持向量機和隨機森林算法進行了創意采納預測,為企業后續篩選和預測創意采納提供了理論依據;Lee 等[15]選擇MyS‐tarbucksIdea.com 獲取創意和評論中的情感特征,利用人工神經網絡、決策樹和貝葉斯網絡等數據挖掘技術開發了新的分類模型,以識別潛在的創意發布者。

圖模型是一種由點和線組成的用于描述系統的圖形[16]。語義豐富、靈活、可擴展、適宜數據量龐大的應用以及支持分布式數據存儲,使圖模型適應網絡化的計算環境,比其他算法更適合社交網絡背景下的數據挖掘研究?;趫D模型融合多源異構在線評論的應用研究主要集中在以下幾個方面。①基于圖模型融合多源異構在線評論的個性化推薦研究。例如,Hu 等[17]提出了一個高效的數據融合模型MR3(a model of rating, review, and relation),同時融合評論評分、評論文本和評論社會關系3 種異構數據,并結合鄰居圖結構挖掘隱式反饋信息,實驗結果表明融合多源異構評論信息的模型系統推薦性能良好。②基于圖模型融合多源異構在線評論的產品排序研究。例如,Yang 等[18]提出了一種集成在線評論豐富和異構信息的方法,將在線評論分為描述性信息和比較性信息,并將兩種信息整合到有向圖結構中,最終得到了產品的排名,幫助消費者在比較多個產品時做出適當的購買決策。③基于圖模型融合多源異構在線評論的用戶需求挖掘研究。例如,Guo 等[19]提出了一種考慮用戶個人需求的在線評論挖掘方法,并通過有向圖模型來集成多源異構的產品評論信息,將評論文本數據和數值數據結合了起來。由此可見,圖模型為基于在線評論的個性化推薦、產品排序和用戶需求挖掘等提供了新的方法技術支撐。

綜上所述,已有的以機器學習分類算法預測有價值創意的研究主要關注單一的文本屬性如情感特征,忽視了評論數據其他方面的應用,存在挖掘粒度較粗的問題。此外,基于圖模型融合多源異構在線評論的開放式創新社區創意采納預測的應用研究較少。即使有學者利用在線評論實現數據融合基礎上的創意采納,更關注的也是多源異構數據,在線評論僅作為多源數據的一種,這無法充分發揮出評論數據在創意采納預測中的應用價值。更重要的是,多源異構數據融合研究雖取得了一定的突破,但多源異構數據融合的定義不適用于多源異構在線評論。其原因在于多源異構數據融合中的“多源”指的是來自不同傳感器中的數據,而在線評論是每一個用戶根據自身對產品或服務的體驗產生的觀點、想法。在多源異構數據理念下,在線評論本身即具備多源的屬性,而數據多源是數據異構的前提。盡管已有的關于多源異構數據融合的研究針對同一主題選擇了不同的數據源,并取得了理想效果,但不同平臺或數據集存在字段內容不一致、不清楚是否為同一用戶等問題,這給多源異構在線評論數據融合問題帶來了一定的困難。因此,需借鑒多源異構數據理念重塑多源異構在線評論的內涵,并選擇適合多源異構在線評論數據融合與挖掘方法。

2 融合多源異構在線評論的創意采納預測方法

針對單純基于評論文本的開放式創新社區創意采納預測和多源異構在線評論數據融合存在的挑戰,本文提出了融合多源異構在線評論的創意采納預測方法。遵循“理論基礎→數據獲取→特征體系設計→特征融合→效果評價”的研究邏輯,圖1 描述了本文方法中的各功能層級及機理內容。①理論基礎層:數據級融合、特征級融合和決策級融合是目前最常見的數據融合方法[20]。在多源異構在線評論數據融合任務中,數據級融合面臨實體無法對齊和不同平臺數據字段不統一等問題,而決策級融合則存在真實數據質量不佳和決策成本代價高的問題。因此,本文采用特征級方式融合多源異構在線評論。此外,本文基于信任轉移理論和價值共創理論,定義了多源異構在線評論。②數據獲取層:依據多源異構在線評論的定義,獲取社區平臺中評論用戶及其與其他用戶互動中產生的文本型評論(評論和追評等)和數值型評論(情感和評分等),構建多源異構在線評論數據集。③特征體系設計層:基于啟發式系統性說服模型,本文提出了結合啟發式評論者、啟發式評論和系統性評論等多維度特征來實現創意采納預測的方法。④特征融合層:從多源異構在線評論數據融合方法的角度來看,本文選擇了圖模型中的圖注意力網絡,實現啟發式評論者、啟發式評論和系統性評論數據的特征級融合。⑤效果評價層:將本文方法的識別結果與已有同類研究中的識別算法進行對比,以說明本文方法的性能和數據融合的效果。

圖1 基于多源異構在線評論數據融合的創意采納預測方法

2.1 信任轉移和價值共創視角下在線評論的多源異構特征

在實現基于多源異構在線評論數據融合的創意采納預測研究前,本文首先依據多源異構數據融合的理念,歸納了多源異構在線評論的定義,并基于信任轉移理論和價值共創理論分析了在線評論本身具備的多源異構屬性。

Khaleghi 等[21]將多源異構數據融合定義為,為了共同的任務或目標,把不同用戶、不同來源渠道產生的具有多種不同的表現方式(如數值型、文本型、圖形圖像、音頻視頻)但描述同一主題的數據融合在一起。正如上文所述,在線評論是不同用戶在體驗同一產品或服務后,根據自身的實際感受采用評分或撰寫文本方式,針對產品或服務提出的觀點、看法。顯然,在線評論本身就來自不同用戶,即具備多源異構的屬性。因此,在多源異構數據融合理念和在線評論本身多源異構屬性的指導下,將多源異構在線評論的多源定義為來源多源,即在線評論是由不同用戶所發表的關于產品/服務的觀點。將多源異構在線評論中的異構定義為數據結構異構,文本型、數值型、圖片型和音頻視頻型在線評論均可視為異構性在線評論。因此,本文所做的基于多源異構在線評論數據融合的創意采納預測的主要任務是,對不同用戶針對同一產品/服務發布的數值型、文本型建議性評論抽取相應的特征,在特征融合基礎上實現產品創意采納的預測,并對預測結果進行評價。

2.1.1 信任轉移視角下在線評論的多源異構特征

信任轉移理論表明,當委托人幾乎沒有直接經驗時,信任可以從一個可信的證據來源轉移到另一個人或群體[22]。Stewart[23]認為信任轉移同樣適用于互聯網環境,即用戶在與技術互動或在線上環境決策時,信任發揮著至關重要的作用。Verhagen 等[24]的研究結果表明,消費者對實體店的服務、商品、氛圍和布局等的信任,顯著影響了消費者的在線購買意愿。同樣地,關于在線評論的相關研究結果表明,對評論者的信任會使閱讀評論的用戶將信任轉移到對評論者評論的信任上。例如,Ma 等[25]發現評論者的評論頻率、評論長度和評論可讀性,會隨著評論者徽章級別的提高而顯著增加;Leong 等[26]認為,評論者屬性如語言風格、發表的體驗和個人資料照片的披露在移動社交商務的信任形成中的作用至關重要。因此,本文認為企業在對用戶的創意進行采納決策時,不僅會考慮評論者的評論文本,還會考慮評論者的個人屬性。也就是說,對評論文本的信任轉移到了對評論者的信任上。因此,在將多源異構在線評論的多源定義為來源多源的情況下,本文認為特征來源多源,即來自評論和評論者的特征均會影響企業對用戶創意的采納。

2.1.2 價值共創視角下在線評論的多源異構特征

消費者使用企業產品創造價值、消費者與消費者互動創造價值以及消費者與企業互動創造價值是消費領域價值共創典型的3 個層次[27]。張寧等[28]分析了企業開放式創新社區創意采納影響因素,發現創意的信息熵和情感強度對創意采納有顯著正向影響,消費者間的互動正向影響創意的采納;消費者間的互動包括對創意的瀏覽、點贊和評論。企業是否決定采納用戶的創意,本質上考慮的是創意的價值,而創意的價值不僅來自消費者和產品的互動、消費者和企業的互動,更受到消費者與其他消費者之間的互動的影響。也就是說,消費者、企業和產品之間的互動能夠增加創意的價值。因此,在將多源異構在線評論的多源定義為來源多源的情況下,本文認為價值來源多源,即來自消費者、企業和其他消費者間的互動產生的價值均會影響企業對用戶創意的采納。

2.2 啟發式系統性說服視角下基于在線評論的創意特征設計

基于多源異構在線評論的定義,本文將在線評論的多源定義為來源多源,來源多源包含特征來源多源和價值來源多源,異構指的是與產品創意相關的文本型、數值型等評論的數據結構。圍繞該思想,本文基于啟發式系統性說服模型分析了基于在線評論的創意采納的影響因素,并設計了創意的相關特征。在已有研究中,學者試圖通過使用啟發式系統性說服模型(heuristic-systematic model,HSM)來理解影響在線評論感知價值的因素,該模型假定信息可以被系統性或啟發式地處理[29]。用戶提交的建議型評論,本質上是說服企業接受自己建議的過程,因此,啟發式系統性說服適合創意采納情境?;诖?,本文將多來源特征分為啟發式評論、啟發式評論者和系統性評論3 類,從在線評論中表征有價值的創意。

2.2.1 啟發式評論特征

當讀者不想對所呈現的信息考慮太多時,可以基于表面內容對信息進行啟發式處理。關于在線評論的啟發式特征,已有研究主要考慮的是文本的語言學特征[30]?;诙嘣串悩嬙诰€評論的定義,消費者和消費者的互動也可以增加評論文本的價值,促進創意的采納。已有研究表明,消費者和消費者間的互動行為,如創意的點贊、參與和回復,對創意采納起到了積極作用[28]。因此,本文中的啟發式評論特征主要包括創意語言學特征和創意價值共創特征。其中,創意語言學特征主要包括創意長度、創意中相關詞語的詞頻(如命名實體、數詞和量詞)、評論中相關詞語的詞性(如名詞、動詞)和創意豐富度(如創意的表達方式),創意價值共創特征主要包括創意支持度(如創意獲得的點贊數)、創意流行度(如其他用戶對創意的回復數)和創意關注度(如創意的參與人數)。

2.2.2 啟發式評論者特征

當讀者基于表面內容對信息進行啟發式處理時,對評論者身份、地位等的信任可以轉移到對評論內容的信任,增加基于評論的創意采納的概率。因此,本文從啟發式系統性說服模型的角度出發,將與在線評論相關的啟發式因素分為評論者和評論維度。啟發式評論者特征主要包括創意者人口統計學特征和創意者行為特征。其中,創意者人口統計學特征主要包括提交創意用戶信息,如是否有頭像、身份勛章數、粉絲數、關注數和圈子數;創意者行為特征主要包括獲贊數、活躍勛章數、歷史動態、以前提交的創意數、之前被采納的建議數和創意采納率。

2.2.3 系統性評論特征

當讀者仔細閱讀評論并考慮所有可用的信息時,是在系統地處理信息。已有研究考慮了系統性信息處理中評論信息的情感和評論內容的質量。情感分析的中心是確定文本背后的觀點,一種常見的分析類型是情感極性檢測,即某個文本的總體方向是正面、負面或中立。情感強度作為情感的量化,也能說明評論者的情感特征。此外,主題模型作為一種可以從內容中識別潛在內容模式的工具,其將文檔視為概率主題的產物,并幫助發現出現在文檔集合中的一組主題。除了基于文本揭示主題外,應用主題模型方法還可以實現文本特征提取的大幅降維。因此,本文的系統性評論特征主要包括創意情感特征和創意主題特征。其中,創意情感特征主要包括情感強度和情感極性,情感強度可基于SnowNLP 得出,SnowNLP 的取值范圍為[-1,1],越接近1 則情感越積極;創意主題特征是基于主題模型確定出的評論文本的主題內容。

2.3 融合多源異構在線評論的創意采納預測過程

2.3.1 融合多源異構在線評論的圖注意力網絡構建

圖注意力網絡(graph attention networks,GAT)本質上是一種圖神經網絡,通過將注意力機制(at‐tention)與圖卷積結合,適用于處理圖結構化數據。GAT 的優勢:①不需要了解整個圖結構,只需知道每個節點的鄰居節點;②計算速度快,不需要昂貴的矩陣運算,可以在不同的節點上進行并行計算;③可以對未見過的圖結構進行處理[31]。鑒于GAT 的上述優點,本文在開放式創新社區創意采納預測研究中使用了圖注意力網絡中的注意力機制,實現了多源異構特征的融合,構建了圖注意力網絡,并基于該網絡實現了創意采納的預測。圖注意力網絡作為圖模型的一種,也存在頂點和邊。在本文中,頂點和邊的設定如下。

(1)頂點

頂點是開放式創新社區的用戶,用戶通過在社區中提交評論,形成了自身在社區中的活動行為。結合用戶的個人身份信息、評論內容和與其他消費者間的互動,本文抽取了啟發式評論者、啟發式評論和系統性評論等特征,并對特征進行量化。因此,對用戶來說,通過量化特征所形成的空間向量表征了用戶節點的特征。

(2)邊

本文依據余弦相似度計算了用戶間發布評論的語義相似度。余弦相似度的計算公式為

其中,A和B表示兩條用戶評論;i表示基于分詞、去停用詞后評論中的第i個實詞;n表示該評論中實詞的總數。語義相似度高,表明創意內容類似,即用戶對產品擁有相似的觀點。但在數據量較大的情況下,依據語義相似度所有節點相連容易導致圖數據結構偏大,影響后續分類預測性能。本文選擇了與創意者相似度最高的前3 名用戶進行連接,以方便后續操作。

2.3.2 基于圖注意力網絡的創意特征融合過程

GAT 是引入注意力機制的圖神經網絡,主要通過注意力機制實現開放式創新社區用戶節點特征的提取與融合?;趫D注意力網絡的創意特征融合過程如下。

(1)圖注意力層的輸入與輸出

(2)基于注意力機制的特征選擇與提取

特征輸入后,需要至少通過一次線性轉換才可以得到所需的輸出特征,所以需要對所有節點計算一個權重矩陣:W∈RF×F′。該權重表示輸入特征F和輸出特征F′之間的關系。此外,GAT 需要引用自注意力機制(self-attention),使用一個共享的注意力機制α,計算輸入特征向量的注意力系數[32]。注意力系數的主要作用在于計算每個節點i的鄰居節點k對它的重要性。注意力系數計算公式為

其中,i、j表示節點。公式(2)說明了節點j對i的重要性,而不需要考慮圖結構的信息。

通過masked attention 將上述注意力機制引入圖結構后,采用softmax 函數實現注意力系數歸一化,即

圖2 所示是基于注意力機制的特征選擇與提取[33]。圖2 左側是兩個用戶節點之間注意力系數的計算過程,圖2 右側是根據鄰近節點注意力系數計算節點特征的實例,不同的箭頭樣式和顏色表示獨立的注意力計算,來自每個頭部的聚合特征被連接或平均以獲得通過這種方法,可以對每個節點進行自適應的特征選擇,從而提升模型的表達能力和準確度。

圖2 基于注意力機制的特征選擇與提取[33](彩圖請見https://qbxb.istic.ac.cn)

(3)基于注意力系數的特征輸出

基于上述過程得到了正則化后用戶節點的注意力系數,可以基于該系數獲取節點的輸出特征。輸出特征預測公式為

其中,σ為非線性函數;j表示所有與i相鄰的用戶節點。通過公式(4)輸出用戶節點i的特征。

(4)基于多頭注意力機制的穩定性保證

多頭注意力機制的作用是使模型處理能力增強,訓練過程更加平穩,每個節點到節點都有k個連接,每個連接都代表一個注意力系數[34]。

2.3.3 基于創意特征融合的創意采納預測過程

基于創意特征融合的創意采納預測過程實質上是一個基于GAT 分類的過程。在上文特征選擇與融合基礎上,創意采納預測過程主要采用softmax 函數、交叉熵損失函數和梯度下降法實現。

(1)基于softmax 函數的分類

對節點向量輸入實現特征融合后,使用GAT 將各個節點的鄰居節點分別賦予不同的權重,最后圖注意力機制將獲取的不同權重的特征,通過自身的權重更新分配新的權重。權重較大的特征對分類更有影響力,權重較低的特征對網絡分類結果影響較小。GAT 在分類中采用softmax 函數[33]

(2)訓練與參數更新

得到預測分類結果后,基于已有的創意采納預測標簽,可以判斷分類結果的準確性。對于結果的改進,GAT 采用交叉熵損失函數和梯度下降法更新參數矩陣。交叉熵損失函數的作用在于反映實際輸出結果與預測結果的相似性,梯度下降法的作用在于遞歸性地逼近最小偏差,增加結果的準確性[35]。通過優化參數,減小預測結果的誤差,保證創意采納預測的準確。

2.4 基于多源異構在線評論數據融合的創意采納預測效果評價

常用的機器學習分類算法有邏輯回歸(logistic regression,LR)、決策樹(decision tree,DT)、樸素貝葉斯(naive Bayes,NB)、支持向量機(sup‐port vector machine,SVM) 和隨機森林(random forest,RF)[36]等。在機器學習中,特征是被觀測對象的一個獨立可觀測的屬性或者特點,如識別水果的種類,需要考慮的特征或屬性包括大小、形狀、顏色等,但一個特征不足以代表一個物體,所以機器學習中使用特征的組合即特征向量來進行表示。特征向量是一個n維的數值向量,可以用來代表某個東西。已有的創意采納研究通常采用機器學習分類算法,創意采納本質上是一個二分類的思想,即創意的采納或者不采納。因此,本文將常用的機器學習分類算法作為基準模型,與圖注意力網絡進行對比。此外,機器學習也是一個依賴多特征的方式,這與本文的特征融合有相似思想,因此,本文通過圖注意力網絡與機器學習的創意采納預測效果,來判斷圖注意力網絡特征融合的效果。

2.4.1 基準模型

邏輯回歸模型通常用于研究疾病流行率及其與預測變量的關系,是研究輸出結果與潛在相關因素之間關聯的標準方法。在機器學習中,決策樹屬于監督學習的一種,作為一個預測模型,其代表的是對象屬性與對象值之間的一種映射關系?;谪惾~斯決策論的樸素貝葉斯是用已知類別的數據集訓練模型,從而實現對未知類別數據的類別判斷。支持向量機的原理概括來說就是在樣本空間尋找最佳分類面即超平面,然后將訓練樣本分開。隨機森林是一個包含多棵決策樹的分類器,其基本思想是利用多棵樹對樣本進行訓練并預測[37]。以上經典的機器學習分類算法是本文采用的基準模型。

在已有研究中,王婷婷[14]采用支持向量機和隨機森林算法對創意采納進行了預測,為企業篩選預測創意采納提供了新的工具方法。為識別潛在的想法發布者,Lee 等[15]利用人工神經網絡、決策樹和貝葉斯網絡等數據挖掘技術開發了新的分類模型。Daradkeh[38]使用邏輯回歸模型對Tableau 社區數據進行了測試,結果表明虛擬眾包社區對用戶和想法的認可與想法采納呈正相關。為驗證本文方法的有效性,將LR、DT、NB、SVM 和RF 等在創意采納等研究中使用過的模型作為本文的基準模型。此外,結合本文數據特征和實際需求調整了上述模型的參數,以保證模型在本文數據集上發揮出最佳性能。

2.4.2 評價指標

開放式創新社區創意采納預測實質上是一個二分類任務。鑒于此,本文選擇了經常用于分類任務的精確率(precision)、召回率(recall) 和F1 值3個指標來評估模型的性能?;煜仃嚾绫? 所示,3 個指標的計算公式分別為

表1 混淆矩陣

其中,TP(true positive)表示實際為創意,并被正確預測為創意的樣本數量;FN(false negative)表示實際為創意,而被預測為非創意的樣本數量;FP(false positive)表示實際為非創意,而被預測為創意的樣本數量。另外,TN(true negative)表示實際為非創意,并被正確預測為非創意的樣本數量。精確率測量的是實際為創意并被正確預測為創意的樣本數量(TP)在實際為創意并被正確預測為創意的樣本數量與實際為非創意而被預測為創意的樣本數量之和(TP 與FP 的和)中所占的比例。召回率衡量的是實際為創意并被正確預測為創意的樣本數量(TP)在實際為創意并被正確預測為創意的樣本數量與實際為創意而被預測為非創意的樣本數量之和(TP 與FN 的和)中所占的比例。F1 值調和了精確率和召回率,是對模型預測創意采納性能的整體評估。

3 實證研究

3.1 數據采集

本文選擇小米MIUI 社區中的用戶建議板塊作為實證數據來源(圖3)。理由如下:第一,據統計,MIUI 系統80%的修改意見是由社區用戶貢獻的[39],由此可見,小米社區是一個活躍度較高的開放式創新社區;第二,在研究設計中,基于本文提出的基于在線評論的開放式創新社區產品創意特征體系,小米社區用戶建議板塊數據分布基本能夠滿足研究需求;第三,基于文獻調研,小米社區用戶建議板塊在關于開放式創新社區的研究中出現頻率較高。因此,本文將社區用戶在2022 年1 月1 日—2022 年11 月27 日提交的產品建議帖子、用戶信息和與其他用戶交互過程中產生的字段內容作為實證數據來源,數據爬取時間為2022 年11 月27 日,共爬取21888 條用戶建議。

圖3 小米MIUI社區用戶建議板塊

3.2 數據清洗及預處理

為保證數據來源質量,本文采用人工瀏覽方式進行數據清洗及預處理:①刪除數據集中評論帶無效鏈接數據591 條;②刪除用戶信息及評論信息存在缺失值數據468 條;③刪除爬取過程中重復性數據197 條。經過上述操作后,最終得到20632 條數據作為實驗數據。

3.3 基于在線評論的開放式創新社區產品創意特征體系構建

基于文獻調研,本文在已有同類研究,如謠言識別、在線評論有用性識別相關研究的基礎上,構建了基于在線評論的開放式創新社區產品創意特征體系,如表2 所示。圖4 是基于LDA(latent Dirich‐let allocation)的創意文本主題一致性得分,K=18時,主題一致性得分最高,為0.4406,迭代次數為500。

表2 基于在線評論的開放式創新社區產品創意特征體系

圖4 基于LDA的創意文本主題一致性得分

3.4 基于多源異構在線評論數據融合的創意采納預測結果

3.4.1 實驗設置

表3 所示是本文在運行模型過程中的相關實驗設置。

表3 實驗設置

3.4.2 參數設置

本文就GAT 模型的主要參數,如學習率、Dropout 和迭代次數等進行了分析。將采集的數據集按照8∶2 分為訓練集和測試集,其中訓練集用于學習圖注意力網絡中的相關參數,測試集用于驗證分類預測算法的準確性。參考已有研究,本文采用了窮舉調參的方式以獲取模型的最佳實驗性能,具體過程:保證其他模型參數不變,每次設定一組參數組合,改變其中一個參數帶入模型,并得出相應的評價指標結果。重復上述操作,直至得出模型的最佳性能結果停止。例如,當Drop‐out 取值為0.6 時,模型的表現最好,隨著Dropout的取值逐漸增加或遞減,模型性能也隨之降低。最終,通過表4 中的參數設置,模型得出了理想的結果。

表4 參數設置

3.4.3 預測結果

表5 顯示了每個模型獲得的分類預測結果。從精確率的角度來看,所有模型的性能都相對較好,精確率在0.93~0.96。但是,在召回率和F1 值方面,模型之間的創意采納預測性能存在較大的差異。召回率衡量了模型正確預測創意采納的能力,該值越高越好。由表5 可以看出,本文提出的GAT 模型的召回率最高,達到0.9813,這意味著其在創意采納預測方面表現出較好的性能,也說明了圖注意力機制在特征融合效果方面的優勢。NB 模型的召回率僅為0.4983,表明該模型對創意采納預測能力較差。作為精確率和召回率的調和平均值,F1 值可以衡量模型在正確預測創意采納和錯誤預測創意采納之間達到平衡的能力。本文提出的GAT 模型的F1值最高,達到了0.9721,這意味著該模型在正確預測創意采納和錯誤預測創意采納之間取得了較好的平衡。與之相比,NB 的F1 值僅為0.6359,表明該模型在正確預測創意采納和錯誤預測創意采納之間的平衡能力較差。

表5 基于多源異構在線評論數據融合的創意采納預測結果

綜上所述,不同模型在不同性能指標上表現各不相同,需要根據具體任務和實際數據選擇最適合的模型。在融合多源異構在線評論的開放式創新社區創意采納預測任務中,GAT 模型在多個指標上均表現較好,可能是最優選擇。

4 討 論

4.1 貢 獻

(1)本文歸納了信任轉移和價值共創視角下多源異構在線評論的定義。

多源異構數據融合是大數據時代研究的前沿,并取得了一些研究成果。在已有研究中,圍繞同一主題或內容從不同渠道獲取數據的多源異構數據融合概念與多源異構在線評論具有一定的區別。在多源異構數據融合研究中,在線評論僅作為其中的一種數據來源,嚴重限制了用戶聲音的表達。鑒于真實數據驅動下研究的需要和在線評論的重要價值,本文在多源異構數據融合理念的啟發下,基于信任轉移理論和價值共創理論,定義了多源異構在線評論。其中,多源包括特征來源多源和價值來源多源。異構則是在線評論中相關的文本、情感得分以及主題內容等用戶內容的表達。通過這一概念,不斷厘清在線評論的邊界和結構,推動以用戶生成內容中的在線評論研究的深化,引領電子商務、知識經濟和商務智能的發展。

(2)本文實現了基于圖模型的多源異構在線評論數據的特征級融合。

數據融合的方式包含數據級融合、特征級融合和決策級融合。其中,數據級融合包含的粒度更細、內容多樣,但是受數據質量的限制,簡單的物理融合容易引發不良后果。決策級融合需要每個層級的傳感器都有一定的決策意識,這樣做雖然數據量小,但是魯棒性好。在互聯網環境下,虛假信息、恐怖信息等廣泛存在,且用戶的“無意識言論”較多,初始決策的代價較高?;谔卣鞯臄祿诤鲜菑脑紨祿刑崛√卣?,再對提取的特征進行融合。由于部分特征可能直接與決策相關,因此,本文提出了基于圖模型的多源異構在線評論數據的特征級融合。在融合方法方面,機器學習與特征工程息息相關,但是存在精度不高等問題,圖模型是適合大數據時代的一種數據挖掘方法,本文通過構建圖注意力網絡,基于圖注意力機制實現了多源異構在線評論數據的特征級融合,并取得了良好的融合效果。

(3)本文提出了融合多源異構在線評論的開放式創新社區創意采納預測。

開放式創新社區的發展,導致注冊用戶爆發式增長,引發了用戶提交的建議評論的海量增長。這種增長導致企業難以在資源有限的情況下快速響應用戶建議并篩選出高價值的用戶創意,進而實現產品或服務的創新。因此,國內外學者紛紛對此展開研究,助力企業整合資源實現用戶創意的識別預測。以往基于在線評論的開放式創新社區創意采納預測研究僅依賴用戶提交的評論文本特征,較少關注評論者個人屬性以及社區用戶直接的交流互動實現的價值共創。本文基于啟發式系統性說服模型,整合了以往研究的成果,并提出了用戶個人屬性(創意者人口統計學特征、創意者行為特征)和創意者的價值共創特征(創意的支持、流行和關注)。通過啟發式評論者、啟發式評論和系統性評論的融合,實現了開放式創新社區創意采納的預測研究,通過效果評估,本文基于圖模型數據融合的創意采納預測效果的綜合性能超過97%,優于已有的機器學習分類算法。

(4)本文驗證了圖模型中的圖注意力網絡在分類場景中的應用優勢。

以圖論為基礎的圖模型,對在線產品評論進行文本挖掘與圖學習分析,為探索在線產品評論理論研究提供一個新的研究視角,對電子商務運營商探究用戶評論行為規律及探索潛在評論文本語義關聯挖掘具有重要的實踐意義。運用圖學習方法提供數據挖掘與知識發現的新視角,為商務智能帶來新的附加價值。在此背景下,本文提出了基于圖模型的數據融合方法,并在融合基礎上實現開放式創新社區的創意采納預測。研究結果表明,與傳統的機器學習分類算法相比,基于圖模型數據融合的分類性能在創意采納預測任務中取得了良好效果。

4.2 研究意義

本文的理論意義在于豐富并拓展了多源異構數據融合的研究體系,指導領域多源異構數據融合研究?;趩l式系統性說服模型,從信任轉移和價值共創視角,設計了開放式創新社區用戶創意的特征體系,歸納了在線評論多源異構的本質屬性,深化了多源異構數據融合在電子商務領域的進一步應用。本文提出的多源異構的定義可以拓寬至社交媒體其他數據場景下分類預測,豐富了社交媒體環境下數據融合的理論框架,完善了多源真實數據驅動下的研究理論體系。

本文的實踐意義在于完善并優化了開放式創新社區創意采納預測的方法,可以幫助電子商務平臺完善運營及管理模式;通過創意采納預測的研究,解決了傳統的創意識別效率低下以及社區平臺信息過載等問題,可以使企業和社區平臺更加集中精力加速創新,為爭奪市場優勢、占領市場地位打下堅實基礎,也為后續識別社區中的領先用戶和尋找激勵用戶持續知識貢獻的因素提供了指導。

4.3 不足與展望

本文的研究結果具有一些貢獻和意義,但也存在局限性。比如,本文收集了開放式創新社區的評論數據,并以社區中的采納標簽作為創意采納的衡量,但被企業采納的建議始終是少數,因此,數據存在不平衡情況。后續研究可以提出不平衡數據集上的基于圖模型數據融合的分類方法,以解決數據存在的不平衡問題,不斷提升研究結果的準確性,最終形成統一的基于多源異構在線評論數據融合的創意采納預測方法體系。

5 結 論

在世界百年未有之大變局下,創新驅動不僅是技術創新,還要有制度創新與之配套。開放式創新理念是整合企業的內外資源實現創新的重要抓手。本文以開放式創新社區中的創意采納預測為研究目標,針對現有研究依賴單純的文本特征的局限,本文提出了多源異構在線評論數據融合的思路。針對多源異構真實數據存在的現實困擾,本文重新梳理了多源異構在線評論的內涵。針對現有的分類預測方法存在的細粒度不強、語義知識忽略的問題,本文提出了利用圖模型中的圖注意力網絡特征融合的方式實現創意采納預測,并取得了良好的效果。通過上述研究目標的實現,本文不僅證明了圖模型在特征融合中的有效性,而且從融合評論特征和評論者特征的角度,為創意采納預測做出了方法和理論上的貢獻。

猜你喜歡
異構注意力預測
無可預測
選修2-2期中考試預測卷(A卷)
選修2-2期中考試預測卷(B卷)
試論同課異構之“同”與“異”
讓注意力“飛”回來
“揚眼”APP:讓注意力“變現”
不必預測未來,只需把握現在
異構醇醚在超濃縮洗衣液中的應用探索
overlay SDN實現異構兼容的關鍵技術
A Beautiful Way Of Looking At Things
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合