?

大數據時代股票數據信息可視化的研究

2021-04-22 05:40譚欠男陳中舉涂天宇王瑞
電腦知識與技術 2021年8期
關鍵詞:相關性分析可視化大數據

譚欠男 陳中舉 涂天宇 王瑞

摘要:隨著網絡時代的迅速發展以及我國對數據信息可視化的深入研究,大數據的資源提供對于各個行業也變得越來越重要。尤其是對于股票數據的分析,如何更好地進行各股之間的相關性分析已經成為當今股票分析的重中只重。希望通過此次分析,可以為股票數據信息可視化技術的發展以及對于股票預測的訓練提供一定的幫助。

關鍵詞:大數據;股票數據;可視化;相關性分析

中圖分類號 TP393? ? ? 文獻標識碼:A

文章編號:1009-3044(2021)08-0030-02

Abstract: With the rapid development of the network era and the in-depth research on the visualization of data information in China, the provision of big data resources has become more and more important for various industries.Especially for the analysis of stock data, how to better carry out visual analysis has become the focus of stock analysis today.It is hoped that this analysis can provide some help for the development of stock data information visualization technology and the training of stock forecast.

Key words: big data; stock data; visualization; correlation analysis

1 引言

隨著網絡數據資源逐漸豐富,人們對于網絡資源的需求和使用也在不斷地增加。

伴隨著科學技術的發展,股市的逐漸進步,越來越多的人開始炒股,特別是眾所周知的2014年的股市大牛,當時更是全國掀起了一波炒股的浪潮。伴隨著人們對股市的熱情,對股市數據所進行的技術分析對于那些投資人決定是否投資起著重要的作用。在我國,就算不是炒股的人也可以很容易地發現我國股票市場中,不同行業之間的股票總是會有著相似的同時漲和同時跌的規律,可以看出其表現出的過度的相關性。本文所介紹就是關于同行股票之間相關性的研究并對其進行可視化。

2 可視化技術

數據的可視化主要是為了借由一些圖形圖像的手段來清楚地表達所要傳達的信息。在表達過程中,為了更好地傳達清楚思想和概念,總是需要將美學形式與功能同時發展,通過直接的方式把關鍵的信息和特征來成功表達數據的深入了解。在當今時代,如何面對一堆雜亂無章的數據,如何通過可視化進行數據呈現,是可視化技術面臨的新的挑戰。

可視化主要包括科學算術中的可視化、數據和信息的可視化??梢暬夹g現今被應用在各行各業,大到國家重點項目介紹,小到微分子化學等的展示模擬[1]。

3 相關性的基本理論

相關性研究是指對于線性相關的研究[2],線性相關的系數在度量函數的均值和方差計算比較方便的,在實際的生活中,很多函數的均值和方差并不是那么容易得到的,有的根本就不存在均值或者方差,所以很多的分布函數不是很容易進行線性相關分析。在此文章中,將通過Pandas的百分比變化即股票收益來計算其相關性。

通過研究分析,發現股票歷史數據對于股票的相關性的研究具有一定的研究價值,股票相關性是研究股價與收益之間關系和行業分類的技術工具,對于股票市場的系統性風險和資產組合有效的衡量具有重要的價值[3]。本文對于同行股票的相關性進行可視化分析,對后期的股票分析預測有著重要的指導意義。

4 股票數據集的獲取與處理

東方財經和網易財經上有很多關于每一只股票的信息。此次所需的股票的數據集是利用Python中的BeautifulSoup獲取所需數據,Pandas對數據結構進行分析,使用Matplotilib進行圖表展示,具體數據獲取如下。

(1)通過連板網獲取股票的名稱與股票代碼。

(2)在網易財經上通過谷歌瀏覽器的檢查工具來獲取請求接口。

(3)利用xpath去提取網頁中的要獲取下載的數據的起始和結束時間。

(4)通過連板網上獲取的股票代碼與其url進行拼接。

(5)獲得所需股票數據集。

數據的分析與可視化有助于人們從眾多繁雜的數據中更快速地獲取到有用的信息。本次研究利用的是上證股票制藥行業公司的數據集,通過Python代碼獲取的股票數據集存儲在本地,如圖1所示。

通過Python所爬取的數據集總是存在著各種各樣的問題,接下來要做的就是對其進行數據預處理[4],刪除缺失值、清洗格式和無用的信息、分離標簽等,在此不過多介紹該清理過程,清理之后的數據集如圖2所示。

5 可視化分析

在對數據處理過程中可視化處理使用的信息圖表工具比較熱門,信息圖表示信息、數據和知識等的視覺化的表達[5],當今世界上有很多的可視化的工具,比如谷歌公司的制圖服務接口Google Chart API、Visual.ly、大數據魔鏡等。本文主要使用的是Python中支持的可視化工具庫,主要用到的是Matplotlib、seaborn、bokeh等對獲取的股票數據集進行股票相關性分析。同行公司股票相關性使用的是Pandas的百分比與其他相關函數進行分析,通過散點圖查看它們之間的收益分布,發現同行的制藥公司之間是有著正相關關系的。如圖3所示。

如圖4所示為通過熱力圖來分析股票之間相關性可視化,它們之間的競爭關系通過圖片顏色的深淺來表示,當顏色越深時代表著股票之間的相關性越弱,相反顏色越深則代表相關性越強。從圖中可以看出60083(第一藥業)與其他制藥公司之間的相關性是最強的,同時每一支股與其他股都有著白色間隙,這說明各個制藥公司之間的雖然存在著一些相關性,但是不能說它們存在所謂的因果關系。

6 總結

為完成股票數據相關性可視化的研究,本文利用Python中的BeautifulSoup獲取所需數據,Pandas對數據結構進行分析,使用Matplotilib進行圖表展示。通過少量的代碼獲取股票代碼和股票歷史數據集,并通過獲得的數據集進行可視化分析,完成股票相關性的研究??梢钥闯鐾恍袠I的股票之間的收益存在著微弱的正相關關系,近似的正相關關系只能說明該行業的趨勢發展,不能說明股票之間存在因果關系,更不能說明競爭股票是如何互相影響的。根據它們之間的正相關關系,為以后更好地預測股票價值提供基礎。

總之,在數據信息逐漸增多的今天,Python提供了強大的第三方庫,不論是在數據的處理方面還是進行數據的可視化,都變得更加方便和簡潔,為更好地進行數據分析提供更為簡單易用的可能。

參考文獻:

[1] 沈恩亞.大數據可視化技術及應用[J].計算機軟件及計算機應用,2020(3):68-83.

[2] 李閃.中國各行業股票市場相關性分析[J].上海理工大學管理學院,2020(9):81-84.

[3] 寧瀚文,屠雪永.基于高維波動率網絡模型的股票市場風險特征研究[J].統計研究,2019,36(10):58-73.

[4] 劉艷玲,姚建盛.Python在數據可視化中的應用[J].福建電腦,2020,36(3):68-70.

[5] Lyra: An Interactive Visualization Design Environment[J].Arvind Satyanarayan,Jeffrey Heer.? Computer Graphics Forum ,2014(2).

【通聯編輯:梁書】

猜你喜歡
相關性分析可視化大數據
基于CiteSpace的足三里穴研究可視化分析
基于Power BI的油田注水運行動態分析與可視化展示
基于CGAL和OpenGL的海底地形三維可視化
“融評”:黨媒評論的可視化創新
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合