?

情感分析法在旅游研究中的應用:回顧與展望

2023-03-06 06:19呂騰捷
旅游縱覽 2023年1期
關鍵詞:極性旅游業旅游

呂騰捷

(上??萍即髮W,上海 201210)

引言

大數據的使用正迅速進入旅游研究領域[1],隨著人們對實時和定制信息的需求日益增加,大數據的4個體征日益與消費者研究緊密相關,即規模性、多樣性、時效性、準確性。旅游業是一個顧客體驗對其成長和聲譽至關重要的行業,其服務核心是“以人為本”,即需要在體現人文關懷的同時把握和運用信息網絡大數據,配套電子設備更新升級,以實現服務質量的提高。大多數旅游服務現在通過在線預訂網站在互聯網上獲得[2]。此外,旅行是社交媒體上的主要話題之一。因此,旅游業被公認為在線參與的第一部門是無可厚非的[3]。

基于互聯網的活動都會留下數字足跡,因此有必要及時研究旅游研究者如何利用這些數據[4],以及這些新的數據是否構成了一種新的研究范式的一部分,或包含有新的方法論,并有可能進一步促進我們對旅游理論的理解[5-6]。目前,在線數據源已被廣泛應用于研究,其主要優勢在于,海量且免費的數據能夠為洞悉旅游業本身,以及解讀旅游消費群體提供嶄新視角。對比以往的研究,其重點更多關注商業戰略發展創新、產品開發,以及營銷行為等,而新的數據源的出現為新研究領域的拓展提供了先決條件[7-9]。

在旅游業這樣一個基于積極顧客情感和反饋的服務型產業中,游客滿意度的概念是至關重要的。滿意度作為一個理論化構建已經被討論和探索了很長一段時間,存在著多種操作和測量的方法,其中,主要依賴于收集來的調查數據[10]。研究表明,基于調查的方法存在著成本和邏輯方面的不足,以及潛在的公式偏差。由于游客在旅行中往往投入了較多的時間、精力和其他機會成本,因此對調查問題的回應,存在積極評估傾向的內生性問題。最終可能形成一種存在認知偏差的結果[11-12]。針對特定問題的回答,存在受文化影響或被試偏見導致的結果誤差,是已有以調查為基礎的問題研究方法所含有的通病。此外,問卷可能只涵蓋目的地的預定方面,因而缺乏綜合性。相反,在線用戶生成內容(User Generated Content,UGC)的可用性,以及新技術為研究者提供了一種新的方法,通過“情感分析”可以了解旅行者的感知和可能的滿意度水平[13]。情感分析,一般來說,旨在確定在線UGC中文本文檔、評論、意見或情感的整體上下文極性,因此極性可以是正的、中性的或負的。雖然這一方法與旅游業高度相關,但旅游業中的情感分析才剛剛開始流行起來[14-15]。

本文的目的是回顧和批判性地考察最新的情感分析方法在旅游研究中的應用。為了推進對旅游特定領域的分析,并了解是否基于大數據的方法提供了新的研究路徑,本文圍繞這個主題提出以下問題:情感分析的主要因素和技術方法是什么?情感分析的多種方法如何被應用在旅游的不同方面?情感分析作為一種更廣泛的大數據方法的一部分,能否成為一種改善旅游研究方法,增加旅游理論認識的新途徑?

一、情感分析興起的背景和重要意義

(一)旅游業數字化背景下數據處理需求激增

與互聯網相關的技術變化,已經將旅游業從一個實體化的和個人層面的服務行業徹底轉變成了一個數字化、全方位的旅游服務網絡[16]。無論是個人還是團體旅行,從旅游計劃的形成到個性化方案的定制和選擇的各個環節,個體都擁有了更多主動權和控制力。除了依靠傳統的平臺與中介機構收集和獲得信息反饋,還可以與其他擁有類似旅游經驗的游客建立關聯,并共享在旅游及其決策中的知識和體驗。旅行者可以通過在線平臺為其他旅行者提供意見和建議[17-18]。因此,新的互聯網技術賦予了那些以前無法發聲的人發聲的能力。與旅游和旅游業有關的最成功的專業平臺,如愛彼迎、攜程、貓途鷹等。以貓途鷹為例,該網站每月大約能夠收集并記錄到3.5億個訪問者信息,產生超過320萬條的評論,涉及關于住宿、餐飲、景點等不同類型的數據。這些獨立平臺所能提供的信息,其價值和水平,在一定程度上超過了傳統的官方網站或者專業評論[19-20]。

除了專業系統之外,在線社交媒體,如新浪微博、百度貼吧等,在創建電子口碑中起著重要作用[21]。更重要的是,在線社交媒體、旅游專業網站和平臺,以及微博呈現了多樣的方式來收集游客數據,增加了旅游者意見反饋的豐富性和真實性[5]。雖然個體建議往往是最有影響力的旅行前決策的來源,但互聯網和社交媒體相對傳統的口碑來說總體可信度相對較高[9]。因此,近年親戚、朋友、同事以及官方數據也會從電子口碑中獲取互補性意見。

然而,在線信息的數量正在以非??斓乃俣仍鲩L,搜索、操縱和聚合這些數據,以提取關于游客態度、行為和體驗質量的相關的有用觀點,對旅行者、行業用戶以及學術研究人員來說都是一項煩瑣且耗時的任務[22]。為了更有效地分析大量數據,自動化多角度算法和機器操作系統的需求量不斷增加[23]。

(二)情感分析法逐漸成為旅游業研究的重要工具

以往文獻中,主要強調了使用社交媒體數據以及數據挖掘工具和程序對旅游業研究的重要性。其中,數據收集、數據清洗、挖掘過程、結果分析和評價,是大多數依靠社會媒體數據對旅游業進行分析研究的主要步驟。

情感也可以通過自動化的機器來建模,并且集成在各種應用中[24]。情感分析是使用計算語言學和自然語言處理方法來分析文本并識別其主體的一種分析方法。雖然情感分析的研究可追溯到20世紀六七十年代,但近年來它才被越來越多的研究者和實踐者關注[25]。這種研究方式的興起是受多方面因素影響的,例如:網絡和社會媒體信息的升級[26];新技術的演進,尤其是用于文本分析的機器學習方法;新的商業模型搭建及信息應用軟件的開發。盡管如此,情感分析與其他早期技術相比仍處于起步階段,如數據挖掘和文本摘要[27]。

本文認為,情感分析法可以作為旅游研究的重要工具。雖然對情感分析法的相關研究回顧不能為一些具有挑戰性的問題提供最終答案,仍可以通過對旅游這一特定內容的研究,進一步探索大數據迅速發展下,傳統“理論-驅動”的研究范式與“數據-驅動”模型之間更替抑或共存關系的可能性。

二、情感分析技術及其在旅游中的應用

(一)情感分析的定義與主要方法

近年來,基于情感取向觀點挖掘的研究多是圍繞居民或市場群體的認知和特征展開的,并基于此來討論發布評論的內容可信度以及動機[15]。不同的領域發掘了不同的情感分析方法,也包含了少量關于該主題的文獻回顧式文章,但迄今為止少有以旅游業為焦點的文獻回顧。

情感分析,特別是關于客戶評論的方面,是建立在一定前提下,即通過文本所反映的信息,它可能是主觀的(即固執己見的)或客觀的(即事實)。主觀評論是基于意見、個人情感、信念和對實體或事件的判斷;而客觀的評論是基于事實、證據和可測量的觀察[14]。消費者評論和社交媒體帖子經常反映快樂、沮喪、失望、喜悅和其他感覺[26]。挖掘這些大量的主觀電子口碑對旅游組織尋求改善客戶管理和商業盈利能力的企業具有重要價值。

方法論上來說,情感分析是一個極性分類問題??紤]到分類數量的不同,情感極性分類可以被概念化為二元、三元或序數分類。在二元分類中,我們最初假設給定的客戶評論是主觀的。換句話說,一個二元分類假設給定的文本主要是正的或負的,所以它將給定的評論的極性相應的為“積極的”或“消極的”[28]。有正負之分的情感二元定義取決于所處的特定應用領域。例如,在旅游業中,“積極”和“消極”可能分別指的是“滿意”和“不滿意”,但仍需要進一步的研究,將情感極性與滿意的理論建構聯系起來[29-30]。

評論可能并不總是主觀的,因此,二進制分類需要擴展到包含第三個“目標”類別的三元分類。在三元分類問題中,分類識別過程就是對客觀和主觀句子的篩選過程,提供諸如“正”“負”或“中性”的分類標簽[31-32]。中性極性有時被解釋為正極性和負極性之間的極性。情感分析也可以通過級聯方法來處理,該方法以二元分類法為基礎,以區分主觀和客觀評論,且二元分類能進一步將主觀評論分為兩組,即正或負??陀^評價通常不包含那些在詞典中明確定義為正面或負面的詞[33]。它們也可能包含混合極性而沒有明確方向的觀點。除了簡單的二元和三元分類之外,序數分類可以通過情感強度評定量表(如1到5顆星)來執行[34]。

情感分析是一個多步驟的處理過程,至少包括:數據檢索、數據提取和選擇、數據預處理、特征提取、主題檢測、數據挖掘過程[35]。結合這些步驟可以形成5種不同的分析方法,包括有監督機械學習方法、無監督機械學習方法、基于詞典導向方法、語義學方法以及混合方法。

(二)聚焦旅游業的情感分析研究范式回顧

在對情感分析技術綜述的基礎上,下文繼續探討情感分析在旅游中的應用。其中備受關注的問題是“與旅游相關的研究是否使用最先進的方法?”或“是否有進一步的機會來推進情感分析的應用”。

旅游研究中情感分析方法的識別[36],可以結合關鍵詞,諸如“旅游情感分析”“旅游情感數據”“酒店評論情感分析”和“谷歌評論”,這些關鍵詞已被廣泛用于搜索和檢索發表在互聯網上的相關論文,而不需要在其他特定學術網站進行具體搜索[37-38]。

筆者進一步研究了最近有關情感分析的文章,以提取那些涉及旅游業的參考文獻。旅游研究人員通常使用兩種類型的在線內容進行情感分析:專業網站(如攜程)或社交媒體帖子(如微博)獲得的旅游評論[37-38],這兩種類型的來源通常包含短文本。例如,微博允許長達140個字符的評論,這樣就可以進行句子級別的情感分析。使用手動和自動標注過程對評論進行標注,以訓練和評價情感分析方法。另外的文獻中使用的大多數數據集與酒店住宿有關,而少量的研究集中在餐館和航空公司[39]。

在旅游文獻中廣泛采用了有監督和無監督的機器學習、基于詞典、語義和混合情感分析方法。例如,島田(Shimada)等人提出了一種基于簡單貝耶斯分類器的無監督機器學習方法,在句子層面上對旅游數據進行情感分析。簡單貝耶斯情感分類方法使用自動標記的數據進行訓練[35]。例如,情緒符號“笑臉”“哭臉”分別表示正向和負向的種子,以標記用于訓練的數據,而不是單詞,如“優”和“差”。因此,包含笑臉的評論被認為是積極的,而那些帶有憤怒的臉的評論被歸類為消極。

一些旅游研究則是借鑒了基于詞典的方法。米索普洛(Misopoulos)使用詞匯類型的方法來評估與航空公司服務交付相關的文章的極性。研究結果揭示了航空公司客戶服務中客戶不滿意、滿意甚至高興的方面[40]。其他基于詞典的分析側重于酒店和餐廳的客戶評論。

另一些旅游研究者使用了混合方法。葉強(Ye Qiang)等人在研究中建議將語言分析方法與信息和術語提取方法相結合,以確定在線評論的情緒極性[41]。使用二進制選擇關鍵字和簡單貝耶斯算法幫助測量與不同旅游目的地相關的推文的情感極性[5]。

總之,一個相對廣泛的應用領域存在于旅游業的研究中,主要涉及酒店和住宿。然后,無論是研究內容還是方法上,仍然存在較大差異。例如,大多數國外研究僅使用英文撰寫的數據來分析情緒,但很少使用中文或其他國家語言撰寫的評論。此外,通過對以往研究回顧綜述表明,大多數旅游情緒分析是基于機器學習的方法,雖然一定數量的研究也采用了基于詞典的方法[42]。后者的主要優點是不需要大量的人工標注的文本語料作為訓練集,而是通過創建一個詞典實現在不同領域的多次使用,進而構建情感分類的識別方法。

三、總結與未來研究展望

(一)小結與可能的挑戰

利用大數據和深度學習方法有助于旅游研究打破信息壁壘,有效收集和整合旅游相關數據,實現對游客信息的多維度精準分析和有效預測,并從大數據的不同方面獲得更多的洞察力[43]。旅游研究可以進一步進入一個新的領域,理論驅動的方法和數據驅動的實踐可以相互支持,加深問題理解或現象解釋力,并在理論上實現新一維度的創新。

盡管理論上情感分析法很引人注目,但具體實踐中,提取和處理數據對速度的要求越來越高,加之大量數據的整合使得分析任務已經變得非常復雜,并有必要開發基于機器的自動化方法。本文從一般研究方法和特定旅游研究的角度進行了綜述,考慮到文本情感分析是受讀者主觀性和語言復雜性影響的,因此對于開放領域的數據情感分析,仍然有一些限制和改進空間。

(二)研究方向展望

本文的研究結論只展示了旅游情感分析走向旅游新的研究范式過程的冰山一角。

因此,在情感分析法的完善方面,未來的研究需要旅游研究者、掌握信息技術和人工智能尤其是自然語言處理方面的專家之間的密切合作,以便形成特定主題的初始詞庫,為之后旅游相關行業審閱數據庫的構建和公開工作的順利開展奠定基礎。這將有助于設計一個更復雜的情感分析模型,以更好地處理評論中的隱式情感方面檢測問題。同時,通過提出新的假設,如發現滿意度與情感之間的關系,來加強對旅游領域的研究[20],尤其是通過分析旅游文本中包含的游客情感傾向,豐富作為旅游業的核心概念之一的旅游滿意度的評價方法。

猜你喜歡
極性旅游業旅游
云南出臺20條措施,加快旅游業恢復
跟蹤導練(四)
中國旅游業2017的風往哪吹?
旅游
表用無極性RS485應用技術探討
一種新型的雙極性脈沖電流源
旅游業
出國旅游的42個表達
簡析1912—1928年北京的旅游業
戶外旅游十件貼身帶
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合