?

基于遺傳算法優化支持向量機的震級預測模型研究

2023-12-25 06:30張小濤張新東王晨暉
河北地質大學學報 2023年6期
關鍵詞:震級遺傳算法向量

張小濤, 張新東, 王晨暉

1. 河北紅山巨厚沉積與地震災害國家野外科學觀測研究站, 河北 邢臺 054000; 2. 邢臺地震監測中心站, 河北 邢臺 054000; 3. 河北省地震局, 河北 石家莊 050021

0 引言

由于地震孕災因子較多, 導致震級與影響因子的非線性關系十分復雜, 很難用直觀數學式表達這種不確定關系。 傳統的定量分析比較依靠主觀判斷, 修正權值依賴專家經驗, 導致震級預測效果精度不高。 近年來, 許多研究人員運用BP 神經網絡[1]、 灰色系統[2]等人工智能算法對震級開展預測工作, 取得了一定效果, 但模糊函數的主觀經驗和BP 神經網絡局部極值等問題仍然存在。

當前隨著機器學習的不斷發展, 支持向量機在處理小樣本非線性問題表現出良好性能, 并迅速應用于震級預測方面。 朱景寶等[3]選取12 個P 波特征參數作為輸入, 震級為輸出, 利用SVM 實現地震震級的預測。 宋晉東等[4]選取12 個P 波特征參數作為模型輸入參數, 構建支持向量機的高速鐵路地震預警震級預測模型; 吳芳等[5]將地震活動周期值作為參數應用于最小二乘支持向量機預測中; 武安緒等[6]引入非線性回歸算法優化了SVM 震級預測模型。 但對于支持向量機的參數優化一直沒有較好的解決方法。 遺傳算法利用遺傳變異思想, 能夠初始參數組合尋找到全局最優, 不易陷入局部極值, 馬創等[7]和谷艷昌等[8]均運用遺傳算法確定了支持向量機的最優參數。此外, 影響因子之間的重復信息加大了模型運算量,而主成分分析法可以有效降低指標維度, 提高模型運行效率。 基于此, 本文建立了基于PCA 和GA 優化的SVM 模型, 試圖為地震預測提供參考。

1 基本原理

1.1 主成分分析法

主成分分析(PCA) 是對提出的所有變量, 將重復的變量刪去多余, 建立盡可能少的新變量, 使得這些新變量是兩兩不相關的, 而且這些新變量反映的信息盡可能保持原信息, 從而到達降維目的, 其降維原理[9-11]主要如下: 設(X1,X2…,Xn) 是X的n個向量, 每個向量包含m維變量,X可表示為:

接著計算X的協方差陣, 利用下式:

求出協方差陣的相關系數陣, 根據相關系數陣的特征值λ1≥λ2≥…λm≥0, 可以得到第i個主成分的貢獻率為λi/P, 其中i=1, 2, 3, …m,P =前q個主成分的累計貢獻率為

1.2 支持向量機

支持向量機是一種處理非線性問題的機器學習方法[12-14], 其主要步驟如下:

其中:w可變權值,b為偏置值, 且w和?(Xi)均為n維向量。 引入ξ和ξ*作為松弛變量, 從而建立約束函數為:

其中C為懲罰函數, 用于調整超出松弛變量的懲罰程度。 然后運用拉格朗日乘子法對(4) 進行求解,得到函數:

其中:ai、、ri和都為Lagrange 乘子。 式(5) 分別對w和b求偏導并置零, 反代回式 (5)中, 就可以得到上述問題的對偶問題, 使用二次規劃優化算法計算得到參數ai和對應的最優乘子, 同時構造得到預測函數:

其中:、ai為拉普拉斯算子,b為偏置值,?(Xi)T?(Xi) 為核函數。

綜上, 本文利用主成分分析法對震級影響指標進行降維處理, 然后將新生成的主成分映射到支持向量機的特征空間, 從而建立地震震級預測模型。

2 地震震級預測

支持向量機(SVM) 參數優化方法已發展眾多,其中遺傳算法汲取生物學遺傳變異思想[15-17], 可以快速有效地遍歷所有的參數組合, 不已陷入局部極值, 從而尋優得到SVM 最優參數組合。

基于PCA-GA-SVM 的地震震級預測模型構建流程圖如圖1 所示, 具體步驟如下:

圖1 基于PCA-GA-SVM 的地震震級預測模型構建流程圖Fig.1 The flow chart for earthquake magnitude prediction model based on PCA-GA-SVM

1) 按式(7) 對7 個影響因子數據進行歸一化處理。

式中,Xi和分別對應第i個地震樣本數據和其相應的歸一化數據;Xmin和Xmax分別為各個影響因子的最小值和最大值。

2) 利用PCA 對歸一化原始數據進行降維處理,形成新的主成分, 以新生成的主成分作為輸入變量。

3) 利用GA 尋求SVM 最優參數, 構建基于遺傳算法優化支持向量機的地震震級預測模型。

4) 將建立的PCA-GA-SVM 模型應用于地震震級測試樣本, 實現地震震級預測。

2.1 數據來源

本文利用文獻[18]中地震樣本數據進行模型建立和預測, 以中國云南滇西南地區的17 個地震資料作為樣本來源(見表1), 判斷基于遺傳算法優化支持向量機(PCA-GA-SVM) 模型的地震震級預測效果,計算時隨機選取10 個地震數據作為訓練樣本, 其他7個作為測試樣本, 對預測結果和真實結果進行分析,從而檢驗模型的預測效能。

表1 地震樣本原始數據Table 1 Raw data of seismic sample

其中地震累積頻度是指半年內發生3 級以上地震次數, 累計釋放能量是指半年內能量釋放積累值,b值為震級和頻度關系式中的比例系數。 活動周期中的0 表示該區域斷裂帶不處于活動周期, 1 表示該區域斷裂帶處于活動周期。

2.2 主成分分析

利用主成分分析(PCA) 對歸一化地震樣本數據進行處理, 得到相關系數陣見表2, 可看出地震累積頻度、 累計釋放能量、 異常地震群數和地震條帶個數四者存在正相關關系。 各主成分貢獻率如表3 所示,前四個累計貢獻率為88.6%, 基本能夠反應原來7 個變量所攜帶的信息, 由成分得分系數矩陣可以得到前4 個主成分表達式如式(8) 所示。 新生成的4 個主成分作為模型輸入, 剔除了冗余信息, 同時降低了輸入維度, 提高了運行效率。

表2 相關系數陣Table 2 Correlation coefficient matrix

表3 歸一化特征值、 貢獻率和累計貢獻率Table 3 Normalized eigenvalue, contribution rate,and cumulative contribution rate

3 模型建立

預測模型建立時選取徑向基函數為SVM 的核函數, 用MATLAB 語言編寫GA 優化SVM 參數程序,初始種群個數為30, 遺傳代數為100。 GA 尋優過程如圖2 所示, 得到最優參數C=3.157,g=6.362。 利用建立好的SVM 模型對學習樣本進行回判檢驗, 回判結果如圖3 所示。

圖2 遺傳算法尋優Fig.2 Genetic algorithm optimization

圖3 學習樣本回判結果Fig.3 Learning sample feedback results

從圖3 回判結果看出, 基于遺傳算法優化支持向量機(PCA-GA-SVM) 模型的回判值與實際值一致性較高, 模型對學習樣本有良好的回判效果, 其中樣本4 誤差較大, 主要是同類級地震樣本個數較少, 造成機器學習出現偏差, 總體上該模型對測試樣本的預測具可靠性較高。

為進一步判斷預測效能, 將基于遺傳算法優化支持向量機 (PCA-GA-SVM) 模型的測試樣本, 使用GA-SVM、 GA-BP、 PCA-GA-BP 三種模型的計算了預測結果, 分析不同模型的預測效能, 四種模型的預測結果見表4 和圖4。

表4 四種模型預測結果Table 4 Prediction results of four models

圖4 四種模型預測結果相對誤差Fig.4 Relative error of prediction results of four models

由表4 和圖4 可以看出, 當以原始數據作為模型輸入時, GA-SVM 和GA-BP 兩種模型預測結果的平均相對誤差分別為2.42%、 6.85%。 當以主成分數據作為模型輸入時, PCA-GA-SVM、 PCA-GA-BP 兩種模型預測結果的平均相對誤差分別為2.13%、 6.35%, 表明SVM 的預測精度較高, 且優于BP 神經網絡模型的預測精度。 另一方面, 無論是將原始數據還是提取的主成分作為模型輸入, SVM 均有很高的預測效果, 再次佐證了SVM 在震級預測中的有效性。 同時在PCA降低數據維度、 剔除冗余信息、 提高模型預測效率的情況下, 兩種模型的預測精度分別提高0.29%和0.50%。

4 結論

本文針對震級與其影響指標之間復雜的非線性關系, 建立了基于PCA-GA-SVM 的地震震級預測模型,并以中國云南滇西南地區的17 個地震資料作為樣本對模型性能進行了驗證, PCA 模型可將變量參數維度由7 維降至4 維, 剔除了原參數變量間的冗余信息,提高了模型運行效率, 預測平均相對誤差為2.13%,結果表明該模型方法具有良好的預測效果, 可為地震預測提供可靠參考依據。

猜你喜歡
震級遺傳算法向量
基于累積絕對位移值的震級估算方法
向量的分解
地震后各國發布的震級可能不一樣?
聚焦“向量與三角”創新題
新震級國家標準在大同臺的應用與評估
基于自適應遺傳算法的CSAMT一維反演
一種基于遺傳算法的聚類分析方法在DNA序列比較中的應用
基于遺傳算法和LS-SVM的財務危機預測
向量垂直在解析幾何中的應用
基于改進的遺傳算法的模糊聚類算法
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合