?

基于新聞情感分析和區間分解的匯率預測研究

2024-02-29 08:31劉金培陶志富陳華友
關鍵詞:匯率區間論文

劉金培,儲 娜,羅 瑞,陶志富,陳華友

(1.安徽大學 商學院,安徽 合肥 230601;2.安徽大學 大數據與統計學院,安徽 合肥 230601)

匯率波動對國家經濟的發展及內外均衡起著決定性的作用[1].受復雜多變的國際經濟形勢以及持續反復的新冠疫情等多重影響,外匯市場存在大量的不確定性因素.在此背景下,如何構建精確有效的匯率預測模型成為一項重要的研究課題.匯率變化具有連續性和區間關聯度特征.點值預測模型難以準確分析匯率的連續波動,而區間數據不僅包含了日內的最大值和最小值,還能刻畫變量取值的不確定性和連續變化性[2].因此,基于區間數據的預測模型具有更強的穩定性,對于掌握中國宏觀經濟的未來發展趨勢具有重要的理論價值[3].

現有匯率預測模型主要分為3類:計量經濟、人工智能和分解集成模型.傳統的計量經濟模型[4-7]在處理復雜非線性問題方面存在局限性.而人工智能模型[8-11]雖然在處理非線性時間序列上表現出了相對優越的性能,但也存在過擬合以及參數不確定等問題,且單一模型無法同時提取匯率序列的多尺度特征.依據“分而治之”的思想,分解集成方法成為智能預測領域的主流.Das等[12]提出了基于經驗模態分解(empirical mode decomposition,簡稱EMD)與核極限學習機(kernel extreme learning machine,簡稱KELM)的匯率預測模型.Huang等[13]使用遺傳算法(genetic algorithm,簡稱GA)對變分模態分解(variational mode decomposition,簡稱VMD)的參數進行優化,并結合LSTM(long short-term memory)預測美元兌加元匯率等多個金融時間序列.熊志斌[14]利用自適應噪聲完備經驗模態分解(complete ensemble empirical mode decomposition with adaptive noise,簡稱CEEMDAN)和LSTM 預測與人民幣有關的4種匯率的波動情況.分解集成模型有利于提高匯率的預測精度,然而,傳統的數據分解方法僅適用于點值時間序列,會造成區間匯率波動性特征的較大損失.另外,二維經驗模態分解(bidimensional empirical mode decomposition,簡稱BEMD)雖然可以處理非線性、非平穩的區間時間序列,但其分解結果存在上下界混疊的問題.為此,論文提出一種新的區間經驗模態分解(interval empirical mode decomposition,簡稱IEMD)方法,該方法不僅可以實現區間序列的有效分解,而且能夠克服分解后區間子序列上下界混疊的問題.

除了上述預測方法的改進,預測因子的選擇也會對預測效果產生重要的影響.匯率的預測因子主要包括兩類:一類為芝加哥期權交易所波動率(the Chicago board options exchange volatility index,簡稱VIX指數)[15]、居民消費價格指數[16]和消費者信心指數[17]等經濟指標的結構化數據.另一類為基于網絡搜索指數和文本的非結構化數據.其中,結構化的預測因子難以提供實時信息,會導致預測結果存在滯后性.在大數據的時代背景下,學者們逐漸將研究視角轉向時效性更強的非結構化數據.Lin等[18]發現將百度指數作為預測因子,可以提高美元兌人民幣匯率的預測精度.劉金培等[19]從百度指數中提取相關的非結構化數據用于匯率預測,有效改善了預測效果.張杰等[20]引入互聯網新聞對匯率進行預測,提高了預測的準確率.孫少龍等[21]通過構建情感詞典對在線外匯新聞進行情感分析,實現了模型預測性能的有效提升.上述研究均表明,非結構化數據能夠為匯率預測提供更多的有效信息.因此,將海量的新聞文本量化為情感傾向,并與結構化指標相結合,以作為模型的輔助變量,對匯率預測具有一定意義.

此外,匯率還易受到各種不確定重大事件的影響,如歐債危機、英國脫歐[22]、新冠疫情(corona virus disease 2019,簡稱COVID-19)[23]等.2020年初爆發的COVID-19疫情對全球經濟造成了巨大的沖擊,外匯市場也不可避免地受到了影響.Feng等[23]通過實證發現COVID-19確診病例數量的增加會加劇匯率波動.朱寧等[24]研究得出COVID-19會通過影響生產活動和人們的心理預期,改變消費、投資等行為,從而影響人民幣匯率.由此可見,COVID-19疫情會引發匯率的異常波動.論文以COVID-19疫情為例,通過引入全球恐懼指數(the global fear index,簡稱GFI)量化疫情對匯率的影響,以期為重大事件影響下的匯率預測提供借鑒和參考.

綜上所述,現有研究存在以下3個方面的問題:①匯率的影響因素復雜,而大多數傳統預測研究僅考慮歷史數據或結構化指標,無法實時反映市場情緒的變化,導致預測結果存在滯后性.②現有預測模型未能反映新冠疫情等重大事件引起的匯率波動,從而缺乏適用性.③針對匯率區間時間序列,現有多尺度分解方法存在上下界混疊的問題.針對以上問題,論文提出一種基于新聞情感分析和區間分解的匯率波動預測模型.首先引入外匯新聞文本、VIX指數和GFI指標作為匯率的影響因素,并提出一種新的IEMD方法對原始匯率序列進行分解,接著針對不同序列的特征選取合適的預測方法進行組合預測.最后通過4組對比實驗驗證所提模型的準確性和適應性.

1 模型構建

1.1 恐懼指數(GFI)構建

COVID-19的快速傳播造成了巨大的生命損失,疫情爆發給人們帶來了明顯的恐懼[25].為了反映疫情的影響,論文引入GFI指標[26]來對匯率進行預測,GFI旨在衡量人們對COVID-19的傳播和嚴重程度的日常關注和情緒.

首先,根據每日報告的確診和死亡病例總人數,計算報告病例指數(reported cases index,簡稱RCI)和報告死亡指數(reported death index,簡稱RDI)

然后,根據RCI和RDI計算GFI指標

1.2 區間經驗模態分解(IEMD)

為了解決傳統經驗模態分解(EMD)僅適用于點值時間序列的問題,論文針對區間時間序列,提出一種新的區間經驗模態分解(IEMD)方法.

EMD是一種將信號分解為幾個本征模態函數(intrinsic mode function,簡稱IMF)和一個余項的方法[27],主要包括5個步驟:①確定原始序列中的所有局部極值點;②生成上下包絡線,用3次樣條插值擬合上下包絡線,并計算上下包絡線的平均值m(t);③從原始序列中減去m(t),得到分量h(t);④判斷序列h(t)是否滿足IMF的條件,若滿足則h(t)就是第一個IMF分量c1(t),若不滿足則用h(t)代替原始序列重復步驟1~3,直到滿足IMF條件;⑤從原始序列中減去c1(t)得到余項r1(t),將r1(t)作為原始序列重復上述過程,當rn(t)成為單調函數或小于特定閾值時,結束分解過程.

雖然EMD可以有效降低非線性、非平穩數據的復雜性,但它只能實現點值數據的分解.為此,論文在EMD的基礎上進行改進,提出可以分解區間時間序列的IEMD方法,具體步驟如下:

(1)將原始區間序列構造成中心-半徑形式,即

(3)將半徑的趨勢分量rn(t)按照等比序列的原則分成m份,分別加減到中心序列的各個分量中,得到區間分解后的上界和下界,從而避免了分解后上下界混疊的問題,即

將剩下的n-1個分量相加,得到匯率殘差序列R

(4)此時原始區間序列就被分解成m個區間子序列和1個殘差序列,即

論文提出的IEMD分解方法可以實現對區間時間序列的分解,有效降低序列復雜度.另外,該方法能夠克服傳統區間分解方法存在的上下界混疊問題,以保留原始區間序列的波動特征.

1.3 組合預測方法

由于分解重構后的區間子序列具有不同的尺度特征,論文選擇極限學習機(extreme learning machine,簡稱ELM)、多層感知機(multi-layer perceptron,簡稱MLP)、隨機森林(random forest,簡稱RF)、二次曲面支持向量回歸(quadric surface support vector regression,簡稱QSSVR)4種單項預測方法對它們進行組合預測.

1.3.1 極限學習機(ELM)

極限學習機(ELM)是一種基于單隱層前饋神經網絡架構的快速高效算法[28],它的輸入權重和隱藏層偏差是隨機選擇的,不需要在整個學習過程中進行調整以確定輸出權重.ELM 的損失函數可以描述為

其中:N為訓練樣本數量,L為隱含層的神經元數,βi為隱含層與輸出層之間的網絡權重,g(x)為激活函數,Wi為輸入層與隱含層之間的網絡權重,Xj為輸入數據,bi為隱含層的閾值,tj為輸出數據.

1.3.2 多層感知機(MLP)

多層感知機(MLP)是一種前饋神經網絡,它具有高度的非線性映射能力,可以解決復雜的非線性問題.MLP由輸入層、隱含層和輸出層組成,其中隱含層可以為一個或多個,且層與層之間的關系為全連接.輸入層負責接收信號,隱含層負責轉換輸入值并將信息轉發到輸出層,輸出層根據輸入信號以決策或預測的形式計算結果.反向傳播算法是訓練MLP最常用的學習算法之一.

1.3.3 隨機森林(RF)

隨機森林(RF)模型是由Breiman[29]提出的一種集成回歸算法,其過程如下:

(1)使用Bootstrap抽樣方法隨機抽取x個樣本集,并將這些樣本集輸入到x顆回歸樹中進行預測.

(2)對于每顆回歸樹,隨機選擇p維變量作為備選分支變量,使用分類和回歸樹(classification and regression tree,簡稱CART)算法來訓練回歸樹,直到生成最佳回歸樹.

(3)計算x個回歸樹輸出的平均值作為RF的最終輸出.

1.3.4 二次曲面支持向量回歸(QSSVR)

核函數支持向量回歸模型能夠有效提取復雜序列的非線性特征,但核函數及其參數的選擇沒有通用的規則,需要耗費大量的計算時間.為克服其缺陷,論文引入無核的QSSVR 模型[30],對訓練集,yi∈R進行非線性擬合.QSSVR模型可以在不利用任何核函數的情況下,生成二次曲面,對n個訓練點進行有效擬合,其中:(W,b,c)為未知參數,具體形式如下

與經典的SVR模型類似,QSSVR模型的目標是生成一個“管道”,然后試圖在這個“管道”中包括盡可能多的訓練點.即對于一個給定的δ,首先忽略“管道”內訓練點|y-(0.5xTWx+bTx+c)|≤δ的誤差,然后,為了在該“管道”中包括盡可能多的數據點,將“管道”邊界之間的距離最大化,將“管道”外的數據點的誤差ξi最小化.因此,QSSVR模型可以表述為

使得

其中:δ,Cp>0為模型超參數.

在對指標因子以及相關方法的理論性和可行性進行詳細闡述的基礎上,論文進一步提出了基于新聞情感分析和區間分解的匯率波動預測模型,如圖1所示.該模型主要包括4個步驟:

圖1 模型框架圖

(1)數據提取.首先,從相關網站收集所需的原始數據,包括匯率區間數據、VIX指數、外匯新聞標題、新冠疫情確診和死亡病例.然后,利用Python自帶的第三方庫Snownlp對爬取的外匯新聞標題進行情感分析,每條新聞標題對應一個情感分數,分數越接近1表明情感傾向越積極.同時,利用新冠疫情確診和死亡病例數據構建GFI指標.

(2)區間分解.在分解階段,由于匯率具有連續變化的特征,為了保留其波動信息,使用IEMD對匯率的原始數據進行區間分解,對其他子序列進行EMD簡單分解.然后,基于樣本熵對分解后的各子序列進行重構,依次得到對應的匯率數據、VIX指數、情感分數和GFI的高、中、低頻區間序列以及匯率殘差序列.

(3)組合預測.在預測階段,將相同頻率的區間匯率歷史數據和VIX指數、情感分數、GFI作為對應,分別用ELM,MLP,RF和QSSVR對高頻序列、中頻序列、低頻序列和殘差序列進行預測.

(4)模型評估.為了驗證論文模型的有效性,作者使用區間均方誤差(interval mean squared error,簡稱IMSE)、區間平均絕對誤差(interval mean absolute error,簡稱IMAE)和區間平均絕對百分比誤差(interval mean absolute percentage error,簡稱IMAPE)3種誤差評價指標,對匯率區間預測結果進行檢驗.

2 實證研究

2.1 數據提取

論文選取日度美元兌人民幣(USD/CNY)、澳元兌人民幣(AUD/CNY)和瑞士法郎兌人民幣(CHF/CNY)3種匯率區間數據作為研究對象.所用的數據集包括4個部分:匯率歷史數據、VIX指數、外匯新聞標題、新冠疫情確診和死亡病例數.其中匯率歷史數據和VIX指數均來源于Wind金融終端,外匯新聞標題從和訊網的外匯專場板塊爬取獲得,疫情數據來源于Our World in Data數據網站(https://ourworldindata.org/).樣本區間設置為2019年1月1日—2022年10月28日,剔除周末和節假日,共927個區間數據.其中,將2019年1月1日—2022年1月19日的742個數據作為訓練集,2022年1月20日—2022年10月28日的185個數據作為測試集.

為了確保數據的可用性,使用Snownlp對爬取的匯率新聞標題進行情感分析,并將相同日期的情感分數取平均,得到每日的情感分數值.同時,根據1.1節的方法構建GFI指標.

2.2 區間分解

該節使用IEMD對3種匯率數據進行區間分解,設置參數q=1/8,得到對應的匯率區間序列和殘差序列,同時對其他子序列進行EMD簡單分解.然后,通過計算各個序列的樣本熵,按照頻率高低對分解后的各子序列進行重構,依次得到對應的匯率數據、VIX指數、情感分數和GFI的高頻序列、中頻序列、低頻序列以及殘差序列.圖2展示了重構后的USD/CNY 區間序列和殘差序列.可以看出,重構后的USD/CNY區間序列無上下界混疊,且趨勢明顯,易于預測.

圖2 重構后的USD/CNY區間序列與殘差序列

2.3 組合預測

將重構后相同頻率的VIX指數、情感分數和GFI與匯率區間序列對應,以提前1期的高頻序列、中頻序列、低頻序列和殘差序列作為輸入變量.進而,分別運用極限學習機(ELM)、多層感知機(MLP)、隨機森林(RF)和二次曲面支持向量回歸(QSSVR)對高頻序列、中頻序列、低頻序列和殘差序列進行預測,對所有子序列的預測值進行組合即可得到最終的區間預測結果.將最終預測結果分別與3種匯率數據的實際值進行對比,上下界的預測效果如圖3所示.可見預測值與實際值之間的變動趨勢基本一致,模型的預測精度較高.

圖3 該模型預測效果圖

2.4 模型評估

為了驗證論文所提方法的有效性,將論文模型與另外8個相關的預測模型進行比較,采用IMSE,IMAE和IMAPE 3個評價指標進行誤差檢驗,結果如表1所示.

表1 各模型預測誤差評價指標對比

(1)與不同影響因素的對比.為了比較不同影響因素對匯率預測的影響,在論文方法的基礎上,將論文模型與只考慮VIX+外匯新聞的模型和不考慮任何影響因素的模型進行對比,分別記為VIX+外匯新聞-IEMD-組合預測方法和IEMD-組合預測方法,如表1中(1)和(2)所示.可見,論文所提出的考慮了VIX+外匯新聞+GFI的模型在所有指標下都具有最好的預測效果,體現了該模型的有效性;然后,與未考慮GFI的模型相比,考慮了GFI的模型預測效果更好,這說明將GFI添加到模型中參與預測有助于提高匯率的預測精度;最后,將只考慮了“VIX+外匯新聞”的模型(1)和沒有考慮任何影響因素的模型(2)對比,前者預測效果更好,說明將外匯新聞中涵蓋的市場情緒量化,并結合VIX指數參與預測,可以有效改善匯率區間序列的預測效果.

(2)與不進行區間分解的對比.將論文提出的IEMD區間分解方法與EMD簡單分解方法進行對比,記為VIX+外匯新聞+GFI-EMD-組合預測方法,如表1中(6)所示,表明作者所提出的IEMD區間分解方法可以為匯率預測提供更多的有效信息,從而提高預測精度.

(3)與單項預測方法的對比.基于論文預測模型,對分解重構后具有不同尺度特征的子序列采用單項預測方法進行預測,記為VIX+外匯新聞+GFI-IEMD-ELM 方法、VIX+外匯新聞+GFI-IEMD-MLP方法和VIX+外匯新聞+GFI-IEMD-RF方法.對比結果如表1中(3)~(5)所示.其中,采用MLP進行單項預測的模型誤差最高,效果最差.而采用RF進行單項預測的模型效果最好,這體現了單項預測方法的不穩定性.此外,論文模型的各項誤差評價指標均明顯低于上述3種單項預測方法,這表明對匯率序列進行區間分解和重構,進而根據不同分量的頻率特征選擇不同的方法對其進行組合預測,能夠更有效地擬合序列的變化趨勢和細節波動,從而提高預測的準確性.

(4)與已有預測模型的對比.將論文模型與其他預測匯率相關文獻中使用過的模型EMD-MLP[27]以及EEMD-SVR[28]進行比較分析,對比結果如表1中(7)和(8)所示,可以看出,論文模型的預測誤差要明顯低于EMD-MLP和EEMD-SVR模型,體現了論文模型的合理性.

3 結束語

針對匯率數據的高波動性、不確定性特征以及傳統區間分解方法存在的缺陷,論文提出了一種基于新聞情感分析和區間分解的匯率預測方法.首先,基于Snownlp情感詞典將爬取的外匯新聞標題量化為情緒評分,并利用疫情數據構建GFI指標,與VIX指數一起作為匯率時間序列的影響因子;其次,使用IEMD和EMD分別對匯率區間數據和影響因子進行分解,并根據樣本熵重構得到高、中、低頻區間序列和一個殘差項;然后,將對應頻率的匯率區間序列和影響因素序列進行組合,并對不同特征的序列采取合適的預測方法;最后,通過實證對比分析,證明論文模型預測精度較高,對于匯率的突發波動能夠及時、準確地進行擬合,適用于疫情沖擊下的匯率區間時間序列預測,與已有研究相比具有更高的預測精度和穩定性.

綜上所述,該研究具有以下3個方面的優勢:①在預測因子上,選取了反映市場情緒的外匯新聞和VIX指數,此外還引入GFI來量化疫情的影響,為重大事件下的匯率預測提供了有效參考.②提出了針對區間序列的分解方法,并取得了良好的預測效果,說明該方法可以為預測提供更多的有效信息,更具現實意義.③在預測階段,根據不同序列的尺度特征,選取合適的方法對其進行組合預測.對比分析結果表明該方法比單項預測方法更加穩定有效.此外,論文所提出的區間分解方法還可以應用于其他區間時間序列的預測中,如碳價格預測、空氣質量預測等.

論文的研究還存在一定的不足,匯率的波動是各種復雜因素綜合影響的結果,而論文提出的模型無法涵蓋所有的影響因素.因此,在未來的研究中可以考慮加入更多其他的影響因素,以提高匯率的預測效果.

猜你喜歡
匯率區間論文
解兩類含參數的復合不等式有解與恒成立問題
你學會“區間測速”了嗎
人民幣匯率:破7之后,何去何從
人民幣匯率向何處去
越南的匯率制度及其匯率走勢
前三季度匯市述評:匯率“破7”、市場闖關
區間對象族的可鎮定性分析
下期論文摘要預登
下期論文摘要預登
下期論文摘要預登
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合