?

基于電力大數據的鋁行業價格分析與預測

2023-11-29 11:26胡傳勝楊鑫張永欽
數字技術與應用 2023年11期
關鍵詞:用電量價格變量

胡傳勝 楊鑫 張永欽

1.安徽繼遠軟件有限公司;2.上海韜牧投資管理有限公司;3.北京天易數聚科技有限公司

為探索基于電力大數據的行業經濟分析預測,本文選取鋁行業的用電量數據以及該行業的產品價格數據作為研究因子,首先通過相關性檢驗確認研究因子的相關性程度,在研究因子相關性較高的前提下,利用SVR 算法搭建基于行業用電量數據的鋁行業價格分析預測模型,開展鋁行業的發展趨勢及市場價格分析預測。通過與實際情況進行對比,檢驗該模型對鋁行業未來價格走勢的預期效果,有利于投資者更加了解市場走勢,有助于行業投資風險的分析決策,規避一些可控制的市場風險。

鋁是我國僅次于鋼鐵的第二主要金屬,在我國各個行業的應用中都是占有非常重要的作用。隨著我國國民經濟高速增長,預計今后20 年中,我國對鋁的需求仍將處于增長階段。由于受到鋁的市場行情以及國際國內經濟市場的多種因素影響,鋁的價格波動很大。因此,對鋁價格波動情況的分析以及對鋁價格行情進行科學的預測,對于鋁工業發展具有極其重要的意義。

當前電力行業與眾多產業存在相互依存、相互影響的關系,通過電力數據可以間接分析產業的變化趨勢,針對鋁行業分析中對數據高頻高質的客觀要求,通過電力數據與鋁行業經濟數據的關聯分析,充分發揮電力數據準確性高、實時性強、價值密度大、采集范圍廣等優勢,助力提升鋁行業價格預測的時效性和準確性。

本文選取2019 年1 月至2022 年8 月鋁行業的用電數據及價格數據,基于相關性檢驗、SVR 算法構建基于電力數據的鋁行業宏觀基本面分析模型及價格分析模型,開展電力數據與鋁行業經濟數據的因果及趨勢分析。

1 鋁行業相關性分析

1.1 相關性算法介紹

相關性分析(Correlation Analysis)是指對兩個或多個具備相關關系的變量進行線性相關分析,從而衡量變量間的相關程度或密切程度。相關性程度即為相關性系數r,r的取值范圍是[-1,1],相關性不等于因果[1]。

Pearson(皮爾遜)相關系數是反映兩個變量線性相關程度的統計量,適用于變量滿足連續性、正態分布性、線性關系[2]。

兩個變量之間的皮爾遜相關系數定義為兩個變量之間的協方差和標準差的商,如式(1)所示:

式(1)定義了總體相關系數,常用希臘小寫字母ρ作為代表符號。估算樣本的協方差和標準差,可得到皮爾遜相關系數,常用英文小寫字母r代表,如式(2)所示:

r亦可由(Xi,Yi)樣本點的標準分數均值估計,得到與上式等價的表達式,如式(3)所示:

Spearman(斯皮爾曼)相關系數是衡量兩個變量的依賴性的非參數指標,適用于定序變量或不滿足正態分布假設的等間隔數據[3]。它利用單調方程評價兩個統計變量的相關性,如果數據中沒有重復值,并且當兩個變量完全單調相關時,斯皮爾曼相關系數則為+1 或-1。常用希臘字母ρ表示,如式(4)所示:

實際應用中,變量間的聯結是無關緊要的,于是可以通過簡單的步驟計算ρ。被觀測的兩個變量等級的差值ρ,如式(5)所示:

進行基于電力數據分析預測鋁行業的價格趨勢的首要條件為確定鋁行業用電量數據與價格數據是否存在強相關性,確定用電量是否為鋁行業價格的重要預測影響因子。利用鋁行業的用電數據及價格數據,并通過計算兩組時間序列的皮爾遜相關系數和斯皮爾曼相關系數,觀察系數大小,判別兩組數據的相關性程度。

1.2 相關性分析數據處理

主要數據為2019 年1 月至2022 年8 月鋁行業的用電數據及價格數據,對于鋁行業價格數據存在的質量問題,例如:缺少個別月份的價格數據,采用KNN(最近鄰)算法對于缺失數據進行估算補充。

為保證分析結果的準確性,分別通過計算皮爾遜系數和斯皮爾曼系數對于兩組數據變量進行相關性分析,計算皮爾遜相關性的前置條件為兩個變量之間需要存在線性關系或正態分布,接下來將分別通過K-S 檢驗和繪制散點圖、直方圖的方式進行檢驗數據是否滿足前置條件。

對于小樣本數據,通過K-S 檢驗方法,分別計算兩組數據的p值,如果p值大于0.05,則證明數據滿足歸零的假設,即樣本數據的總體分布服從正態分布,如果p值小于0.05,則反之。K-S 檢驗結果如表1 所示:

表1 K-S 檢驗結果表Tab.1 K-S test results table

通過對于原數據進行繪制散點圖進行直觀判斷數據是否滿足線性關系或正態分布,數據圖如圖1、圖2 所示。

圖1 鋁行業用電量散點圖Fig.1 Scatter plot of electricity consumption in the aluminum industry

圖2 鋁價格散點圖Fig.2 Aluminum price scatter plot

通過K-S 檢驗和繪制圖形的方式,皆可驗證原始數據滿足正態分布的前提,接下來通過計算相關性系數判斷數據相關性程度。

1.3 行業用電量與價格分析

將行業用電量數據、行業價格數據作為變量分別計算皮爾遜系數和斯皮爾曼系數,結果如表2 所示。

表2 相關性系數結果表Tab.2 Correlation coefficient results table

通過表2 可以看出,鋁行業與其對應的鋁產品價格所得的皮爾遜系數和斯皮爾曼系數皆大于0.5,都呈現正相關性且相關程度較高。

1.4 相關性分析結論

對原始數據進行KS 檢驗后,行業數據符合相關性檢驗的要求,通過計算皮爾遜、斯皮爾曼系數,比較兩個系數與0.5 的大小可以得知:在現有數據的基礎上,鋁行業的用電量與鋁的價格呈正相關性且相關性程度較高,所以對于鋁行業的價格分析,可以發現鋁行業的用電量將會是其重要的影響因子。

2 基于SVR 算法的行業價格預測分析

2.1 SVR 模型介紹

算法模型中的SVR,是非?!皩捜莸摹币环N回歸的算法模型。支持向量回歸模型的算法模型函數,歸根結底就是一個線性函數:y=ωx+b,與線性回歸的區別在于SVR用函數預測計算損失的基本原則是不同的,而且它的函數算法的優化方法也不相同。如,SVR 算法函數y=ωx+b在它的兩邊,用算法計出了間隔距離,在所有間隔距離內的樣本點,計算的過程中將忽略其損失,間隔距離之外的樣本點(紅圈樣本),計算的過程中才會加入函數中,損失為樣本點到間隔帶邊緣的投影與樣本點y值的差,使得間隔距離之間的寬度,函數的總損失能達到最小化,以此來優化改善算法模型。模型函數為:y=ω·φ(x)+b。

SVR 利用核函數將原始數據向高維映射,有效解決非線性問題,且SVR 結果由少數支持向量決定,適用于小樣本數據集,且具有較好的魯棒性[4]。

2.2 算法模型搭建

基于相關性分析和因果檢驗分析的結果,鋁行業的用電量、價格相關性程度較高,且結果表明鋁行業用電量為影響鋁價格的重要因素,在不考慮到資源稟賦、供求關系、投機等因素的影響下,采用鋁行業用電量作為預測鋁價格的主要影響因子,利用SVR 算法搭建鋁價格預測模型。

2.2.1 數據平穩化

原始序列分別為內部的電量數據以及外部權威機構(wind 等)獲取的鋁價格數據,時間維度為2019 年至2022 年9 月,數據頻度為日頻,鋁價格的原始數據趨勢情況如圖3 所示。

圖3 鋁期貨價格歷史趨勢Fig.3 Historical trend of aluminum futures price

通過對原始序列進行快速的平穩性的檢驗,采用ADF 檢驗和KPSS 檢驗。原始序列檢驗結果為ADF=0,KPSS=1,結果顯示原始序列不符合平穩性要求,對原始序列進行一階差分,差分后序列ADF=1,KPSS=0,符合平穩性要求,利用一階差分序列的結果,進行后續建模,即模型參數d=1。

2.2.2 模型檢驗

模型確定后,通過繪制殘差檢驗結果圖進行模型檢驗.殘差指的是實際觀察的指數值與預估值之間存在的差。殘差檢驗結果如圖4 所示,藍色的點已經趨近中間的直線,殘差符合正態分布。

圖4 模型檢驗結果圖Fig.4 Model test results

2.3 預測

在鋁行業用電量與鋁價格的預測分析中,基于SVR算法,利用2019 年至2022 年9 月的鋁行業用電量與鋁價格數據進行擬合預測,數據頻度為月頻,預測結果如圖5 所示,預測結果平均誤差率為9.3%。

圖5 鋁價格預測結果圖Fig.5 Aluminum price forecast results

3 結語

從鋁行業的影響因素看,盡管行業用電和鋁價格相關性較大,但影響鋁價格因素的不僅僅只有產業用電,還有其他影響因素,包括生產工藝、匯率波動、供需關系、政策因素等,后期考慮從多個維度進行關聯分析。在算法提升方面,通過SVR 算法模型預測到的結果可看出短期內的精度較高,今后可進一步將粒子群優化算法與神經網絡方法結合使用,同時在考慮多個維度的情況下,搭建鋁冶煉行業價格預測模型。

猜你喜歡
用電量價格變量
02 國家能源局:1~7月全社會用電量同比增長3.4%
01 國家能源局:3月份全社會用電量同比增長3.5%
抓住不變量解題
也談分離變量
1~10月全社會用電量累計56552億千瓦時同比增長8.7%
價格
價格
價格
SL(3,3n)和SU(3,3n)的第一Cartan不變量
2014年全社會用電量
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合