?

主成分分析的改進及其在疫情后住宿餐飲業中的應用

2023-07-08 03:58何秀麗
關鍵詞:住宿餐飲業特征值

何秀麗,米 鵬

(河海大學 理學院,江蘇 南京 210098)

統計學是機器學習和大數據發展的基礎.主成分分析,是統計學中一種重要的綜合評價方法[1].利用統計軟件解釋大數據的基本思想是一項新的研究熱點,借助計算機模擬技術,解決了統計學中的一個常見問題.通過經濟實例演示,加深了學生對大數據處理思想和方法的理解.

主成分分析是一種提取重要信息和主要信息同時防止信息損失的方法,以此達到降維的目的.目前,主要被應用在經濟、教育和人口等方面,一些歐美統計學家將其應用在人臉識別和醫學等領域,并取得了較好的結果.主成分的提取是此方法的核心,目前常用非線性方法和恰當的核函數來提取主成分.一組變量,如果存在相關關系,就可以采用主成分法來處理.主成分法就是通過正交旋轉將這些變量變為數量更少的變量,對這些變量的信息進行濃縮.在實際問題中,可以化繁為簡,將多指標問題盡可能壓縮、降維,使得各維度之間線性無關,其中方差較小的那些維度上的數據被剔除,因此能夠簡單直接地處理問題.具體來說,選擇n個看起來都很重要的指標,對其分析過程有可能過于繁瑣.此時,需要利用主成分法進行信息濃縮.指標間常見的關系是線性關系,通過主成分分析后,得到的指標數可能遠小于n.降維后的主成分指標覆蓋了最初的指標信息,簡化了分析變量(即從n維降到遠小于n維),同時也不丟失精度[2].近些年來,主成分分析法也在多方面得到了應用.錢赟[3]通過主成分預測了股票初始價格和收盤價格;吳明娟[4]將主成分應用于癌癥基因圖譜中的測序;侯娟[5]將主成分應用于山西省的土地績效評價,并對該省的土地利用提出了合理建議.

一個國家的餐飲和住宿受到文化、地域、居民生活水平、消費水平和消費習慣等諸多因素的影響,最近三年又受到疫情的影響,而這些因素之間又相互影響,比如,因為疫情,人們的工資水平和消費水平會顯著降低.從樣本數據出發,介紹主成分思想和改進后的方法步驟,并將此方法應用于近兩年國內的餐飲和住宿,介紹疫情對此行業的影響.

1 主成分思想及改進方法

其幾何意義是,ti是第i主成分的方向,而yi是x在該方向的投影,其方差D(λi)反映了在該方向的分散程度.

步驟3找出R的特征值和特征向量.計算出所有p個結果后(理論上有p個特征值),將其由大到小排序λ1≥λ2≥…≥λp≥0,然后單位化得ei(i=1,2,…,p).

步驟4針對主成分找出貢獻率及累計貢獻率,分別為

算出累計貢獻率達到85%~95%的特征值λ1,λ2,…,λm,對應的主成分為第1,2,…,m(m<p)主成分.

步驟5計算主成分的荷載.通過如下式子即可求出

以上即為所有主成分的計算步驟.需要注意的是,提取主成分時,要確保累計貢獻率達到一定值,這是此方法是否可行的判斷標準,要求降維后的信息依然能夠使用,并保持一定水平,這樣其實際意義也有合理的解釋.如果得到的只有空談的數字而沒有實際意義,那么結果也沒有任何說服力.

2 改進后的方法的實現和應用

2020年初,新冠疫情席卷全球,受影響最大的是實體經濟.利用主成分方法,觀察疫情暴發以來中國的住宿餐飲業出現的變化.使用的綜合評價以及基于主成分分析的研究方法,部分參考張鵬[8]、解素文[9]、洪素珍[10]等文獻.根據2020年中國統計年鑒,選擇按注冊類型和行業分限額以上住宿企業和餐飲企業主要指標(以下簡稱住宿業指標和餐飲業指標)2 類數據,取自中國統計年鑒第十七章住宿第二、四節數據.由以上四組、兩類數據,利用統計軟件,使用主成分分析法,分析2020 疫情發生后各項主要指標對各類型的住宿和餐飲在經濟上的影響變化[11],并通過主成分法對這些重要指標進行降維,討論了幾項主要指標的重要程度,并分析了各類型企業在經歷疫情后的綜合經濟狀況及變化.

最初有14維32個樣本,可以看出此數據量的差異非常大.選擇了4組數據,這里以2020和2021年的住宿業指標為例,這14維的指標分別為:法人企業(個)、從業人數(人)、營業額、客房收入、餐費收入、資產總計、流動資產合計、固定資產凈額、負債合計、所有者權益合計、營業收入、營業成本、稅金(后12個變量單位為億元)及附加以及利潤總額(億元),分別用x1,x2,…,x14表示.而32個類型的企業分別為內資企業、國有企業、集體企業、股份合作企業、一般旅館、民宿服務、露營地及其他住宿業等.餐飲業與住宿業的指標大同小異,接下來進行主成分分析.

取2020 年住宿業的輸出結果為例作解釋,其他數據將展示但不做解釋.表1 展示了所有變量間的相關性,即相關矩陣.這也對應了之前在提取欄選擇的“相關性分析”.利用此選項可以知道變量之間相關性,如果數值過低那么不利于主成分分析,不能較好地降維,即使得出了主成分,也不能較好地解釋其主成分意義.因此,一般情況下,當原始數據之間的相關性大部分能夠大于0.3 則有較好的結果.如表1 所示,大部分變量的相關達到了0.9 以上,說明有較強的相關性,主成分分析能有理想的結果.由于原始數據單位不統一,個、人、億萬元等單位,所以選擇“相關性分析”,此方式能夠標準化數據.這樣得到的數據更有說服力,避免不同的數量級數據出現在同一模型中.

表1 相關矩陣

表2展示了公因子方差.反映變量對于原數據的解釋能力,值越大則解釋能力越強,其功能類似于特征值,數值越大,其在主成分中所占比重越大.一般情況下,值大于0.5則說明可以解釋原始數據.如表1所示,該問題下各個變量的公因子方差都接近于1,大部分都大于0.9,說明每個變量的解釋能力都很強,可以較好地代表原始數據.

表2 公因子方差

表3 為KMO 和巴特利特球形度檢驗,此項指標刻畫變量之間的關聯程度,其中KMO值若大于等于0.60 或者顯著性水平值小于等于0.05 則說明變量之間的關聯程度較大,由其作主成分也能得到較好的結果.表3所示的KMO值為0.796而且顯著性水平也非常小,達到了預期要求,說明該問題有較好的相關性,能夠得到有價值的結果.

表3 KMO和巴特利特球形度檢驗

表4為總方差解釋.該表展示了主成分、對應特征值、累計貢獻率.可看出,特征值大于1的主成分以及主成分累計貢獻率達到預期要求的80%的數量.表4 僅顯示一個主成分,其貢獻率就達到了96.02%,非常高.一個指標就可以代表14 維的原始數據,效果也非常好,也側面說明了該問題的主成分分析很有價值.

表4 總方差解釋

圖1 為“碎石圖”,為表4 中14 個主成分對應的特征值,可以看到僅僅第一主成分的特征值比例比較大,已經可以代表所有原始變量.

圖1 碎石圖

表5為成分矩陣,展示了從大到小排序的所有變量.通過成分數據計算主成分表達式,然后將樣本值代入計算即可.2個主成分可分別解釋為營業成本大類和營業額大類,對其造成影響的各因素都可計入其中.這份數據可以對此行業的經濟狀況作出評估.

表5 成分矩陣

由于2020 年住宿業的數據僅得出一個主成分,則不能生成載荷圖,即成分圖.但通過2020 年餐飲業數據得到了2 個主成分,如圖2 所示,該圖展示了14 個變量可以被分為2 個大類,即2 個主成分.2 個主成分越聚在一起,則說明越相關.可以看到,大部分的住宿企業,受到疫情暴發的影響較大.人們外出減少,娛樂減少,多數人居家辦公,減少了旅游、出差,自然也就減少了住宿業的收入,其綜合評價也隨之降低.例如旅游飯店類型的企業,綜合評價指標降低了0.2,股份有限責任公司降低了0.1,其中影院就屬于股份有限責任公司.這些企業,受疫情影響停工停產,客戶減少,業務減少,資金流轉不過來,直至破產.旅游飯店之類的企業,在疫情期間甚至沒有生意,為了生存只有關門,或者拓展業務.當然,仍有部分類型的企業不減反增,例如國有企業增加了0.02,主要是國家的防疫政策對國有企業的補償措施到位,所以沒有遭受過大的經濟波動.

圖2 2個主成分(2020餐飲)

餐飲業的變化與住宿業類似.受到疫情暴發的影響,餐飲業運營成本顯著提高,餐飲消費更為保守,外出就餐人數和次數減少.為了生存,商家不得不拓展業務,選擇轉型加入外賣服務,比如入駐外賣平臺,加入線上銷售等方式,外賣所占比額逐漸增加.疫情后的餐飲和住宿被動重新洗牌,一方面餐飲和住宿公司要加強服務場所防控管理,另一方面政府需要重塑消費者信心,幫企業渡過難關,提高其抗風險的能力.

猜你喜歡
住宿餐飲業特征值
男生女生住宿差異大賞
一類帶強制位勢的p-Laplace特征值問題
FSMS在餐飲業中的應用
單圈圖關聯矩陣的特征值
民宿市場占比已超星級酒店
高校后勤餐飲業的財務管理探析
P大的住宿學院
關于餐飲業征收增值稅的若干思考
基于商奇異值分解的一類二次特征值反問題
關于兩個M-矩陣Hadamard積的特征值的新估計
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合