?

第32屆奧運會獎牌榜排名預測

2017-11-20 10:23戴鈺璁王清華
電腦知識與技術 2017年26期
關鍵詞:獎牌榜東道主獎牌

戴鈺璁+王清華

摘要:綜合運用時間序列指數平滑法、一元線性回歸和層次分析法等數據挖掘方法,預測第32屆奧運會獎牌榜排名。首先從縱向的角度,利用奧運會歷史成績數據,運用時間序列指數平滑法預測出第32屆奧運會主要國家地區的金牌占比排名;然后從橫向的角度,采用一元線性回歸方法,分析國內生產總值與奧運會金牌數量之間的關系;在歸納了影響奧運會獎牌榜排名的主要因素的基礎上,采用層次分析法,建立了綜合預測模型,并根據歷史成績、國內生產總值、人口、東道主的排名,計算出了有望在第32屆進入前十的14個國家地區的得分,最后預測了獎牌榜排名前十名的國家,并進行了拓展分析,研究結果對我國備戰第32屆奧運會具有一定的參考價值。

關鍵詞:奧運會獎牌榜排名;國內生產總值;人口數量;東道主;指數平滑法;一元線性回歸;層次分析法;R語言;Excel

中圖分類號:G811.8 文獻標識碼:A 文章編號:1009-3044(2017)26-0215-05

Abstract:This paper focus on predicting the 32nd Olympic Games medal ranking by data mining methods including exponential smoothing of time series, linear regression and analytic hierarchy process. First, we use history medal counts to predict the gold medal rankings of the major countries in the 32nd Olympic Games by exponential smoothing method. Then, the relationship between GDP and Olympic gold medal counts by linear regression is studied by linear regression. Based on such results, a comprehensive forecast model is established using historical Olympic medal counts, GDP and rankings of Olympic host by analytic hierarchy process, and scores for the 14 countries that is possible to be the top 10 of the 32nd Olympic Games is calculated. Finally, top 10 is predicted through the scores, and extensive analysis is provided. Our results shed light on the preparation of the 32nd Olympic Games for China.

Key words:olympic Games medal ranking; GDP;olympic host; exponential smoothing of time series; linear regression; analytic hierarchy process;R;Excel

1 概述

奧林匹克運動會(在本文中的奧運會特指夏季奧運會,簡稱奧運會)是目前世界規模最大的綜合性運動會,奧運獎牌榜排名是各個國家和地區人們在奧運會期間熱議的話題,也是從事體育運動相關人員在備戰第32屆奧運會特別關注的問題,那么第32屆奧運會獎牌榜排名情況如何,特別是獎牌榜排名前十名是哪些國家呢?本文運用數據挖掘的方法,對第32屆奧運會獎牌榜排名進行了預測分析。

國內不少學者對奧運會獎牌榜問題進行了相關研究。王宇鵬,許健等對奧運會獎牌榜影響因素進行了實證分析,以20-28屆夏季奧運會的數據為樣本,建立了多變量計量經濟模型,定量分析了國家經濟實力、人口數量、東道主效應、人種、文化傳統、國家體制等6個奧運會獎牌榜的影響[1];郭愛民、趙明發根據第25屆至第30屆連續6屆奧運會獎牌排前十的國家獲得的金、銀、銅牌數量,建立了GM(1.1)模型,并計算出第31屆奧運會十國金、銀、銅牌數量并給予排序[2]。趙慧娟通過回歸方程定量分析GDP與奧運會獎牌數量的關系,預測第30屆奧運會前五名國家的排名[3]。這些研究成果主要是研究影響奧運會獎牌榜排名影響因素,或是建立預測模型計算獎牌數量,但是由于每一屆奧運會設置的獎牌總數不同,而且影響獎牌獲取的因素很復雜,很難精確預測各國將獲得的獎牌數量,通過單一的線性回歸分析方法存在較大的預測誤差。本文在總結這些研究成果的基礎上,利用各個國家和地區奧運會歷史成績、國內生產總值、人口等數據,綜合運用時間序列指數平滑法、一元線性回歸和層次分析法,對第32屆奧運會獎牌榜排名進行了預測。具體的研究思路包括以下四個步驟。

(1) 數據準備

利用R語言編寫了網絡爬蟲程序(程序詳見附錄),從國家體育總局官網爬取了第1屆到第30屆奧運會獎牌榜(官網只有第1屆到30屆獎牌榜數據)[4],從奧林匹克運動會官網下載了第31屆獎牌榜數據,并對歷屆獎牌數進行了匯總,并計算了在第31屆排名前14國家和地區在第23屆到第31屆金牌占比1,并保存到Excel文件中。從聯合國數據中心官網下載了2015年人口數據[5],從世界銀行數據庫官網下載了2015年國內生產總值數據[6],從國際貨幣基金組織數據庫官網下載了2016年至2020年的GDP預測數據,對下載數據進行整理,并保存到Excel文件中[7]。endprint

(2) 縱向分析

根據第23屆到第31屆奧運會獎牌金牌占比數據,利用R語言指數平滑預測函數ets對近幾屆排名靠前的國家和地區,逐一進行指數平滑預測。

(3) 橫向分析

通過Excel工具,利用一元線性回歸分析方法,分析國內生產總值對奧運金牌數量的影響。

(4) 利用層次分析法,建立預測模型

①影響奧運會獎牌榜排名因素分析

借鑒其他學者的研究成果,歸納總結影響奧運會獎牌榜排名的主要因素。

②建立層次分析模型

根據影響奧運會獎牌排名的主要因素,建立判斷矩陣,利用R語言權重計算程序,計算權重,并進行一致性檢驗。

③計算分值,得出結論

根據歷史奧運成績、國內生產總值、人口和東道主排名得出各個國家和地區的分數,再根據權重,計算總分,然后排序得出排名。

2 利用奧運會歷史成績縱向分析

奧運歷史成績是由時間要素和不同時間上的數據要素組成,具有鮮明的時間序列性質,因此可以采用時間序列分析方法,通過對不同時間數據的動態變化和發展過程進行定量分析,時間序列趨勢的測定主要有[8]:時距擴大法、移動平均法、趨勢回歸法和指數平滑法。時距擴大法和移動平均法可以繪制出趨勢線,并定性地判斷出長期趨勢方向,但這兩種方法不能給出數據變量隨時間的定量關系,因此不適合用來進行預測,在本文中采用指數平滑法進行預測分析。

由于我國從第23屆正式參加奧運會,俄羅斯從第26屆開始參加奧運會,因此分析以第23屆到第31屆夏季奧運會的歷史數據為主。通過國家體育總局官網爬取和整理數據,得到第23屆至第31屆主要國家地區金牌占比,如表1所示。

2.1 指數平滑法預測模型

采用趨勢回歸方法雖然可以運用趨勢方程進行預測,但由于所有的預測均基于同一趨勢回歸方程,無法對時間序列的變動做出反應。指數平滑法采用時間序列本期的實際值與前期對本期預測值得加權平均作為本期的預測值,相當于用本期的實際值對預測值進行不斷地修正,以適應數據的變化。預測的前提是過去存在的各種因素的影響和發展趨勢在今后繼續下去,適用于中短期預測[8]。

由公式(1)可知,每期的預測結果需要通過t期實際值和t期預測值來計算。因此,指數平滑法預測需要確定平滑系數a值。一般的方法是以a=0.1開始,依次加大進行試算,計算預測誤差[i=1nYi-Y*i],找到最小的平滑系數a值。R語言的forecast包中的ets()函數,可以自動選取對實際數據擬合優度最高的模型和平滑系數[12]。

2.2 分析結果

利用R語言的ets函數和數據可視化函數編寫的預測程序,對表1所示數據,計算出了第32屆預測結果及誤差,如表2所示,并給出了各個國家和地區的時序折線圖、正態Q-Q圖、預測直方圖(限于篇幅,在此選略)。

根據表2指數平滑預測分析結果,第32屆奧運會金牌占比由多往少的順序是:美國、中國、英國、俄羅斯、德國、意大利、法國、韓國、日本、澳大利亞、匈牙利、巴西、西班牙、荷蘭。

從程序計算給出的正態Q-Q圖、預測直方圖來看,模型的殘差基本滿足均值為0的正態分布,預測模型比較合理。但是由于影響各個國家獲得的金牌占比因素很多,歷屆數據變化大,因此預測誤差還是比較大。指數平滑預測的結果只能作為預測的參考依據,不能作為預測最終排名。

3 利用國家綜合實力進行橫向分析

奧林匹克運動是國家綜合實力的競爭,既是國家經濟實力的競爭,也是體育人才的競爭。奧林匹克運動需要國家投入巨大的人力、物力和財力支撐。良好的經濟基礎可為運動員提供較好的訓練條件、生活條件和物質獎勵,使得運動員具有更高的積極性,得到更好的訓練。一般用國內生產總值(GDP)來衡量國家綜合實力。根據GDP和金牌數據,采用線性回歸分析方法,定量分析GDP與獲得金牌的關系。

3.1 一元線性回歸分析模型

Excel提供了回歸分析功能。利用Excel,根據GDP和金牌數量畫出散點圖,增加線性趨勢線,由Excel自動計算出擬合方程和擬合度[R2],再利用Excel回歸分析工具計算出擬合優度和誤差。

3.2 分析結果

以2015年各國的GDP和2016年召開的第31屆夏季奧運會獎牌榜數據為例,分析GDP對奧運獎牌數量的影響,具體數據如表3所示。

回歸分析結果如圖2所示。

從圖1、圖2可見,回歸系數為0.0002,相關系數R2為0.7846,通過顯著性水平為0.0005的t檢驗,因此生成的模型具有統計學意義。由模型可以看出GDP和金牌數量呈正相關。

4 綜合分析

影響奧運會獎牌榜排名因素很多,因此需要綜合考慮多種影響因素,建立能預測響奧運會成績的綜合數學模型。本文運用層次分析法,建立奧運獎牌榜排名預測模型。

4.1 影響奧運會獎牌榜的主要因素

對于奧運會獎牌榜排名的影響因素研究已經有不少學者進行了深入探討,綜合這些學者的研究結果主要是[1,2,3]:除了國家經濟實力因素以外,其他影響奧運會獎牌榜排名的主要因素包括人口數量、東道主效應、人種、地區文化傳統。

人口數量。各種體育人才的概率分布在各個國家和地區是大體相當的,人口基數越大,擁有優秀運動員的數量越多,在奧運會獲得獎牌的概率就越大。

東道主效應。競技體育中的“東道主效應”是運動員在自己的國家參加比賽能取得更好的成績。一是東道主國家運動員熟悉生活環境、運動場所和比賽環境,有利于比賽水平的發揮;二是有更多的觀眾加油助威,有利于充分發揮運動員的潛力;三是東道主國家的運動員由于部分項目可以直接進入決賽階段,從而有更多的參賽機會。從第23屆奧運會到第31屆奧運會來看,東道主國家的排名都比較靠前,如表4所示。endprint

人種。人類一般劃分為蒙古人種、尼格羅人種和高加索人種3類。不同人種的體格特征擅長不同的體育運動,造成了在奧林匹克運動的不同優勢。蒙古人種或稱黃種人擅長技巧類項目。尼格羅人種或稱黑種人擅長田征等耐力項目。高加索人種或稱白色人種在田徑、球類、游泳和力量型項目比賽中占據著天然優勢。

文化傳統。由于不同的文化和歷史傳統等因素的影響,各個國家和地區普及和愛好的運動項目不同,導致各個運動項目的后備人才的數量和質量存在差異,從而影響各個國家在奧運會的表現。

4.2 層次分析法預測分析

預測第32屆奧運會獎牌榜排名,除了考慮歷史成績以外,還要考慮其他影響因素。從前面的分析可知,影響預測結果的因素很多,但人種和文化傳統等因素難以量化,因此本文選取國內生產總值、人口和是否是東道主三個因素,以及歷史成績預測結果,采用層次分析法建立預測模型。

4.2.1 構建判斷矩陣

[Ai]表示歷史成績、國內生產總值、人口和是否是東道主四個因素,[wi]表示權重,采用層次分析法的“1~9標度法”(如表5所示),對因素[Ai]和[Aj]進行相互比較判斷,構建判斷矩陣A[11],如表6所示。

4.2.2 計算權重,進行一致性檢驗

利用R語言編寫的權重計算程序[12](限于篇幅,在此選略),計算得出各項權重Wi=(0.545 0.315 0.100 0.040),矩陣的相容性檢驗CI=0.047,相容性指標CR= 0.052,通過一致性檢驗。

4.3 預測結果計算

設預測結果總分為100分,4個因素的分值分別為100分。各個國家和地區的各項分值根據排名計算,排名第一的得100分,排名第二的得98分,排名第三的得96分,依次類推。歷史成績采用第二節預測的排名數據,人口數據采用2015年人口數據,國內生產總值GDP數據采用國際貨幣基金組織數據庫2016年至2020年的預測數據的平均值,排名靠前的14個國家的得分情況如表7所示。

5 結論及分析

根據表7,第32屆奧運會獎牌排行榜前十名預測結果如表8所示。

從表8排名結果也可以通過以下證明:

(1) 美國是體育強國,從第1屆奧運會到第31屆奧運會,美國有16次排名第一,9次排名第二,2次排名第三。美國排名第一的可能性較大。

(2) 根據中國歷年奧運會成績,是逐年穩步上升。而且第32屆在鄰國日本東京舉辦,將會有更多的觀眾到現場加油助威,生活環境、比賽環境對我國奧運會運動員水平的發揮非常有利,因此,中國有望“保二爭一”,排名可能超過美國。

(3) 根據英國歷年成績預測,英國排名逐年穩步靠前。但英國啟動脫離歐洲進程,可能對英國經濟和社會有一定的影響,英國預測排名第三。

(4) 第32屆奧運會在日本東京舉辦,是東道主,具有天時地利的優勢,而且其GDP處在世界前列,排名會較第31屆奧運會大幅進步,預測排名第四。

(5) 從德國近幾屆成績來看,排名處于第五和第六之間。德國排名第五的可能性較大。

(6) 從俄羅斯歷年成績來看,俄羅斯的排名逐年小幅靠后。排名第六的可能性較大。

(7) 從法國歷年的成績來看,法國排名穩步靠前,法國排名第七的可能性較大。

(8) 從最近幾屆奧運會來看,意大利排名在第八或第九,在第32屆排名第八的可能性較大。

(9) 從韓國歷年的成績來看,排名比較穩定,且小幅靠前。另外第32屆奧運會在同在亞洲的日本東京舉辦,生活環境、比賽環境對韓國運動員水平的發揮有利,預測排名第九。

(10) 從最近幾屆奧運會來看,巴西排名逐年大幅靠前,與澳大利亞競爭排名第十。

注釋:

1.金牌占比是某個國家和地區在某屆獲得的金牌數所占當屆設置的金牌總數的比例

2.預測區間值由程序計算結果有負數,按照現實情況手工改為0

參考文獻:

[1] 王宇鵬,許健等.奧運會獎牌榜影響因素的實證分析[J].統計研究,2008(25):57-62.

[2] 郭愛民,趙明發.基于灰色理論預測2016年夏季奧運會金牌榜次序[J].中國科技信,2013(9):173-174.

[3] 趙慧娟.預測奧運會獎牌方法——以2012奧運會為例[J].科技創新導報,2014(23):254-254.

[4] 國家體育總局.http://www.sport.gov.cn/n318/n359/n410/c242528/content.html

[5] 聯合國數據中心.http://data.un.org/Default.aspx

[6] 世界銀行數據庫.http://data.worldbank.org/data-catalog/GDP-ranking-table

[7] 國際貨幣基金組織數據庫官方網址:http://www.imf.org/external/chinese/

[8] 馬軍.Excel統計分析典型實例[M].北京:清華大學出版社,2009.

[9] 虞楓.基于指數平滑法的需求預測[J].物流工程與管理,2011(3):77-78.

[10] 楊嘉.各國奧運會金牌數量的影響因素分析[J].江西理工大學學報,2012(33):116-118

[11] 百度百科.http://baike.baidu.com/link?url=7bqiCWUAhdp8CHVE7wofnMqpSuYxqdy-WKMaltmM2EEP3nUaSHfH6—isyKaioNVBe_PFdhHI3aK-AjEPtWOA1Ycx9vCzQIBw1a6iKO7dXG[EB/OL],2016.12.

[12] Robert L Kabacoff.R語言實戰[M].王小寧,黃俊文.譯.北京:人民郵電出版社,2016.endprint

猜你喜歡
獎牌榜東道主獎牌
青春之約 共享精彩
東道主和“夏到主”
獎牌
手工獎牌
首枚獎牌!
東道主文化建構與旅游市場治理
一枚特殊的獎牌
全運會東道主效應特征的理論和實證研究
第七屆全國農運會東道主河南省金牌第一可能性研究——基于東道主效應的分析和預測
中國體育代表團第八次蟬聯亞運會金牌和獎牌榜首位
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合