?

基于智慧城市大數據分析的投標市場研究

2021-04-25 03:19宋迪
商訊·公司金融 2021年36期
關鍵詞:多元線性回歸模型Python語言大數據分析

摘要:2021年,D公司經營狀況步履維艱,累計新簽合同額偏離預計指標。為響應上級部署,拓寬經營渠道,利用Python語言,圍繞國家新型重點建設領域相關數據的進行收集,篩選出符合D公司經營期望值的數據并進行預處理,運用概率論及統計學知識構建多元線性回歸模型,進行大數據分析,實現數據可視化,最終為D公司下一步投標工作重點和投標決策提供參考依據。

關鍵詞: Python語言;多元線性回歸模型;大數據分析;可視化

大數據時代的到來,為工程建設項目的招投標帶來了新的機遇與挑戰,大數據帶來了海量的信息,具體體現出的特征有數據量大,類型繁多,價值密度低,速度快、時效高,在商業、經濟和其他領域,決策正日益基于數據和計算作出,而非傳統意義上的經驗和直覺。

2021年,我國多地在“十四五”規劃中指出,要加快智慧城市、新基建等規模部署,推進新技術等基礎設施建設,推動傳統基礎設施升級,建設新一代信息基礎設施體系。智慧城市建設成為經濟建設領域的重點。

Python語言簡單易用,具備直觀的語法,在探索性計算、數據分析和交互、和數據的可視化等方面十分有優勢,這是本文將Python語言作為智慧城市大數據分析工具的原因之一。

1 使用Python進行智慧城市大數據分析的流程

智慧城市大數據分析流程包括:Python環境搭建,數據獲取,數據預處理,建模與分析,數據可視化,為投標決策提供依據。

Python是跨平臺的代碼(CrossPlatform),但特定的函數方法只能在對應的操作系統下實現,因此需要判別操作系統的類型(Windows系統、OS X系統、Lunix系統)并作對應安裝。

智慧城市尚屬新興產業,通過人與瀏覽器的交互獲取數據費時費力,而通過API交互的方式又很難找到方便可用的API,因此智慧城市大數據分析需要利用Python語言設計一個自動化程序向網絡服務器請求數據,編寫Python代碼爬取相關網站里諸如智慧城市試點數目、PPP項目成交數目、智慧城市招標項目、財政收入、智慧企業、日期等有關數據,并創建數據庫,以方便查詢調用。

由于在不同的網站、不同的鏈接抓取的數據標準不統一,導致數據庫包含很多含有噪聲、不完整(missing)、不一致(inconsisitent)的數據,必須對數據對象進行預處理,處理后進行數據集成,標準化規范化后才能進行建模分析。

本文將預處理后的2021年智慧化工程相關數據建立數據集,并轉換為CSV格式,構建多元線性回歸模型,并對模型進行顯著性檢驗,利用Python進行數據的逆向選擇,剔除統計意義最小的變量。流程見圖1。

通過對多元線性回歸模型的計算分析,以及對大數據分析結果的診斷,得出結論:智慧城市市場活躍程度與智慧城市試點數目、城市基建計劃投資額、累計成交PPP項目數、財政收入、建材漲跌指數具有顯著的線性關系。

采用數據可視化技術可以直觀地表達經過分析處理的數據,也更方便決策者對數據的解讀。Python有很多可視化工具,在進行智慧城市大數據分析時,本文調用Python中的pyecharts工具包,加載中國省級地圖包,以熱力圖的形式展現2021年中國智慧城市市場活躍程度。

以智慧城市試點數目為例,根據2021年《住房和城鄉建設部工業和信息化部關于確定智慧城市基礎設施與智能網聯汽車協同發展第一批試點城市的通知》,確定北京、上海、廣州、武漢、長沙、無錫等6個城市為智慧城市基礎設施與智能網聯汽車協同發展第一批試點城市。對比前文的市場熱力圖,北京、上海、廣州、無錫與智慧城市市場活躍省份高度重合,說明市場成型已久,基建設施完善,但相對市場趨于固化,競爭壓力較大,不易進入;武漢、長沙兩市地處的湖北、湖南兩省,對比熱力圖可見智慧城市建設方興未艾,較易進入,但智慧城市基建設施相對薄弱。不同分析結果可以作為不同投標決策參考的依據。

2 應對反爬取機制

在智慧城市建設大數據分析中,當爬取網頁的時候,輸出信息中會出現諸如“HTTP Error 403: Forbidden”“URLError”等字眼,翻譯過來就是訪問被拒絕,禁止爬取。這是由于爬蟲技術會造成大量IP訪問和占用帶寬資源,部分網站會采用反爬取機制。面對此類問題,需要采取相應的反爬機制應對。如降低爬取速度,減少對服務器的影響,文明爬取;或隱藏身份,使用代理服務器,應對封鎖IP機制;或構造合理的HTTP請求頭(headers),偽裝成瀏覽器,應對封鎖User-Agent機制。

3 數據預處理

在智慧城市建設大數據分析中,通過爬取相關數據來源網站,采集出2021年國內各省份“智慧城市建設”相關數據,并創建數據集。面對不完整、冗余、異常的數據,采取不同的應對策略以使數據標準化。

對于數據的缺失值,有三種處理缺失值的方法,分別是刪除、插補、不處理。常采用插補法處理。使用Python中的df.isnull()函數,顯示數據集情況,缺失值返回結果為“True”,調用df.fillna()或Imputer()函數,在缺失值中填充數據。

對于數據的重復值,需要導入Pandas工具包,使用duplicated()找出重復的行(默認全部列),返回布爾類型的運算結果:沒有重復的行,返回False,有重復的行,在重復數據首次出現的行返回False,其余返回True。

對于數據的異常值,處理時需要視情況而定,尤其包含特俗信息的數據,要慎重處理,常用刪除記錄、視為缺失、平均值修正的處理方法。

對數據集進行預處理,其中,y是因變量,代表2021年國內智慧城市預測投資規模;x1至x9都是自變量,x1是智慧城市試點數目;x2是2021年城市基建計劃投資額;x3是2021年累計成交PPP項目數;x4 是2021年智慧城市招標項目數;x5 是2021年上半年財政收入;x6 是2021年人口比重統計;x7是一級資質智能化企業統計數目;x8是2021年上半年耗電總量;x9是2021年建材漲跌指數。其中y、x2、x5的單位是億元;x8的單位是億千瓦時;x1 、x3 、x4 、x7 的單位都是個;x6、 x9是指數,沒有單位。其內容如表1所示。

4 創建多元線性回歸模型

多元線性回歸分析考慮幾個自變量同因變量的線性關系,其公式如下:

y=β01x1i2x2i+…kxki+ei

這里y是因變量,xki是自變量,βn是回歸系數,β0是回歸常數,ei是隨機誤差。

我們獲得了k組觀察數據,矩陣形式如下所示:

模型寫作:y=Xβ+ε

根據原理,利用ptyhon生成多元線性回歸模型,返回結果見圖2。

在結果中,回歸系數是coef的值,回歸常數是const的值,我們生成的回歸模型為:

y=10.8346-5.1654x1+0.0372x2+0.2776x3+0.0061x4+0.0182x5-1026.5773x6+0.0497x7+0.0327x8-3422.4688?x9

返回結果中R-squared是0.718,根據方差膨脹因子(Variance Inflation Factor,以下簡稱VIF)計算公式:

可以得出結論:模型的精度較低,存在線性關系不顯著的變量,需要建立逆向逐步回歸,篩選自變量。

在智慧城市建設大數據分析中我們采用P檢驗,即“P>|t|”判斷每個自變量和y的線性顯著關系,統計學常用系數0.05、0.02或0.01作為檢驗標準,這里我們采用0.05。P>|t|列中,數值大于0.05的自變量,顯示和y線性關系不顯著,逐個篩選去除,并重復上述建模過程,直到所有P值都小于等于0.05。得到最終建模結果見圖3。

得出多元線性回歸方程如下:

y=10.1598-5.1441x1+0.039x2+0.28x3+0.0229x5-3215.0963x9

由此可以推導出,與因變量y具有顯著線性關系的自變量是x1、x2、x3、x5、x9。

5 結語

本文旨在研究智慧城市市場中Python語言對于投標決策者們的支持。文中利用Python強大的開源庫,根據爬取到的數據建立多元線性回歸模型,通過對模型系數的定量分析,推論出與市場密切相關的因素,并實現分析結果的可視化。作為一門集合了函數式編程的腳本語言,Python在對數據集進行回歸性分析時,取得了較好成果,論證了Python作為招投標市場分析的工具是可行的。

參考文獻:

[1]?趙勇,徐軻,等. 大數據在招投標領域大有可為[N].政府采購信息,2015:8-31

[2]?[美]Eric Matthes.Python編程從入門到實踐[M].袁國忠,譯.北京:人民郵電出版社,2016:7

[3]?GB/T 36333 – 2018,智慧城市頂層設計指南[S].北京:國家市場監督管理總局中國國家標準化管理委員會,2018:6-7

[4]?住房和城鄉建設部、工業和信息化部.住房和城鄉建設部工業和信息化部關于確定智慧城市基礎設施與智能網聯汽車協同發展第一批試點城市的通知[EB/OL].2021:4-28

[5] Ryan,Mitchell.Web Scraping With Python[M]. New York: O'Reilly Media. 2015:7-24

[6] Michael Bowles.Python機器學習預測分析核心算法[M].沙嬴,李鵬,等,譯.?北京:人民郵電出版社,2017:1

作者簡介:宋迪(1987-),男,漢族,遼寧沈陽人。主要研究方向:經營開發招投標工作。

猜你喜歡
多元線性回歸模型Python語言大數據分析
基于Python語言和支持向量機的字符驗證碼識別
論Python程序設計語言
基于Python語言的面向對象課程實踐教學探討
面向大數據遠程開放實驗平臺構建研究
面向大數據分析的信息管理實踐教學體系構建
傳媒變局中的人口電視欄目困境與創新
公司產品差異化對股本回報率影響的實證分析
基于多元回歸模型的廈門房地產市場非均衡度分析
基于Android的Python語言英漢維電子詞典設計與實現
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合