?

面板數據(Panel data) 的分析策略及模型選擇:基于R軟件包的實踐

2024-04-03 21:06胡雪劉旺俊吳崇勝張穎
電腦知識與技術 2024年1期
關鍵詞:固定效應模型R語言時間序列

胡雪 劉旺俊 吳崇勝 張穎

關鍵詞:面板數據;R語言;固定效應模型;隨機效應模型;時間序列;多水平模型

面板數據同時包含橫截面和時間序列兩個維度的數據,能夠提供大量的數據信息,并能通過對不同個體、不同時間點的比較得出更有價值的成果。通過面板數據分析,可以得出某個國家、某個群體、某個企業等的動態變化過程,推論變量之間的因果關系[1]。

1 面板數據的定義

面板數據(Panel data) ,包括橫斷面數據和時間序列兩個維度,最早是由Mundak(1961) 、Balestra和Ner?love(1966)引入計量經濟學領域。面板數據包含每個個體或者單位的各個變量在時間序列不同時點上的測量結果,即將橫斷面和時間序列數據融合在一起的數據集。其中,橫斷面的單位面可以是個體、地區、國家等。如果在面板數據中,每個時期在樣本中的個體完全一樣,則稱為“平衡面板數據”(balanced panel) ;反之,則稱為“非平衡面板數據”(unbalanced panel) 。

2 面板數據的應用情況

綜合近幾年文獻,可以看到面板數據分析在實踐領域中應用廣泛,涉及金融、經濟增長、產業結構、技術創新等宏觀領域以及就業、家庭消費、入學、企業管理、市場營銷等微觀領域。如利用面板數據研究新冠疫情對航運貿易的影響[2]、退休對幸福感和孤獨感的影響[3]等。

在我國COVID-19疫情時空演變特征研究[4]中,通過選取疫情暴發當年的314個城市329天(2020年1月24日至12月18日)面板數據,采用多種分析方法分析了COVID-19疫情的時空變化特征,其中動態面板空間杜賓模型(Spatial Dubin Model, SDM) 估計結果顯示314個城市現存確診數具有顯著的時空自相關性(P=0.017) 且不同階段有明顯差異??臻g自相關表現為鄰近地區的疫情對本地形成加劇效應,時間自相關性則在不同時期表現出不同的效應(全樣本和前期樣本的空間滯后項的估計系數分別為210.64和-48.14) 。

在利用面板數據研究手足口病與氣溫關系應用[1]中,該研究選取了中國有地域代表性的7個城市2010 年1~12月的手足口病發病報告數據和氣溫數據,研究顯示氣溫對手足口病報告發病率的影響有統計學意義(t=10.43, P<0.01) ,同時采用面板數據模型(panel data model) 優于最小二乘回歸模型(least squaremodel) 。在流行病學研究中,對于多個地區連續監測的傳染病數據,當地區之間存在較大差異時,用面板數據模型更為合理。

在應用面板數據模型研究人群血糖與血尿酸水平關系的研究[5]中。該研究顯示血糖與血尿酸的關系為互為因果。血糖對血尿酸影響的面板數據模型結果顯示,隨著空腹血糖水平的升高,血尿酸水平先升高后降低,拐點值為5.07mmol/L。因此糖尿病患者早期除了藥物治療外,還應該加強身體鍛煉、情緒的管理、平衡飲食等,預防高尿酸血癥的發生;血尿酸對血糖影響的面板數據模型結果顯示,空腹血糖水平隨血尿酸水平的先下降后上升,拐點值為632.04μmol/L,血尿酸累積到更高水平時(超過拐點值)才會增大糖尿病的患病風險,因此在日常生活中,高尿酸血癥患者除了控制血尿酸外,還應該注意其他因素的控制,養成良好的生活習慣,以降低糖尿病的發病風險。面板數據模型使人們更深入地理解血糖與血尿酸之間的相互作用規律,為更好地開展2型糖尿病和高尿酸血癥的預防控制工作提供科學依據,同時新的統計學方法也為其他疾病指標之間相互關系的研究提供借鑒。

盡管面板數據有許多優點,但由于面板數據包含二維的數據結構,在利用它建模時對模型的設定及參數的估計比較復雜,建模不當將會造成較大的偏差,估計結果與實際將相差甚遠,從而對人們的判斷產生嚴重誤導,導致有些研究者不知如何應用,選擇合適的分析工具很有必要。R語言作為一個開源的數據分析環境,在數據操作、數據可視化等技術領域為廣大用戶提供了便捷,本研究將以R語言為基礎,對目前現有關于面板數據的應用R包的基本信息和主要功能進行整體介紹,為面板數據的研究分析提供便捷性和可操作性。

3 面板數據的常見模型和R 軟件包

第一種是混合估計模型:混合估計模型在橫截面上既沒有個體間的影響,也沒有結構的變化?;旌瞎烙嬆P团c普通的線性回歸模型沒有本質上的區別[6]。

第二種是固定效應模型:一般分為三種類別,包括只含有個體固定效應的模型稱為個體固定效應模型;只含有時間效應的為時間固定效應模型;既包括個體效應也包括時間效應的為雙向固定效應模型[7]。

第三種是隨機效應模型:個體效應和時間效應與所有的解釋變量均不相關,也就是說,異質性截距反映在隨機的擾動項里。

隨機效應模型與固定效應模型的區別在于對個體差別的定義,固定效應模型刻畫了不同個體的特殊影響,個體間的差別反映在每個個體都有各自截距項;而隨機效應模型則假設個體間的差別是隨機的。

4 面板數據的R 語言程序包

通過在R語言CRAN官網檢索和查詢文獻及書籍,一共檢索到12個常用R包用于面板數據分析,以下匯總了各個R包的基本信息(作者、版本日期、更新情況)及主要函數、應用情況。

5 應用實例分析

5.1 個體固定效應的面板數據分析

利用1970—1986年期間美國48個州截面數據的時間序列,研究不同類型的公共基礎設施對全州生產量的貢獻。主要變量包括:gsp(全州生產量)、pcap(公共資本)、unemp(失業率)、pc(私有資本)、emp(非農業的勞動投入)、state(州)和year(年份)。

從以上結果可知,模型對因變量的解釋率很高(RSquared=0.94),且P 值(<2.22e-16) <0.05,在0.05 水平上回歸模型有顯著意義。

從回歸分析的各個自變量的參數估計表格可看到,PC(私人資本)、emp(非農業的勞動投入)、unemp (失業率)的P 值<0.05,說明這三個自變量對全州生產量有顯著影響,且PC(私有資本)、emp(非農業的勞動投入)對生產量是正向影響(估計值為正數),unemp (失業率)對生產量是負向影響(估計值為負數)。

5.2 多水平模型

對同一個受試者多次調查幸福感,研究不同社區指標對幸福感的影響。主要變量包括:Score(幸福感)、id(不同社區)、Zbuild(標準化后社區建筑密度)、Zroad(標準化后社區路網密度)、Zgreenpro(標準化后社區綠地占比)、Zincome(受試者收入)、Sex(性別:男、女)和Age(年齡)、Job(工作:退休、無業、在業)、Mar(婚姻:離異/喪偶、未婚、已婚)、Edu(學歷:初小、高中、大學)。

從標準化回歸系數來看,有統計學意義的有綠地密度,學歷和年齡。綠地密度的β 為正,說明綠地密度正向影響幸福感。學歷為因子變量,以初小為基準,大學比初小幸福感高0.113,而高中對比初小則沒有統計學意義。年齡最高,幸福感反而降低。

6 討論

本文基于面板數據,在CRAN和相關書籍中檢索總結了12個常用的R包,包含各個R包的基本模型、主要函數和適用情形,并用R語言舉例了兩種情形及結果展示,期望為用R語言進行面板數據分析的工作者提供參考。

正文列舉的12個R包包含各種模型,那么如何根據研究的樣本數據情形選取合適的R包?

面板數據樣本結構和分析模型復雜,針對特定的數據結構和特點,選用合適的工具,不僅能節省時間,而且還可以形成特色的分析。而R語言作為完全開源的軟件,其豐富的算法工具包和函數,幾乎能滿足各類型面板數據分析的需要。相比于其他大多數的分析軟件,R語言具有以下的優勢:

1) R語言中包含很多軟件包,都是免費發行的,其中的源代碼對用戶都可見,用戶可根據自己的需求,自由下載參考并使用。

2) R語言兼容性強,可在多種平臺下運行,包括UNIX、Windows等。

3) R語言的擴展包功能強大、涉及領域廣,且更新速度快。

4) 在R擴展包中,有詳細的介紹/使用文檔及R代碼文件夾,可方便查看幫助文檔和代碼。

5) R語言有強大的繪圖功能,在可視化分析中擁有多種多樣的展現形式和豐富的交互方式。

6) R語言語法結構簡單,能較快地學習和使用。

綜合以上優勢,相信R語言在面板數據分析領域的發展將會越來越強大。

猜你喜歡
固定效應模型R語言時間序列
創造與替代:對外投資與本地就業關系研究
基于GPS軌跡數據進行分析改善城市交通擁擠
基于R語言的Moodle平臺數據挖掘技術的研究
基于時間序列的我國人均GDP分析與預測
基于線性散列索引的時間序列查詢方法研究
我國商業健康險保費收入影響因素實證分析
基于R語言的湖南產業結構對其經濟增長貢獻分析
基于組合模型的能源需求預測
社會救助制約我國弱勢群體發展權實現的實證研究
注重統計思維培養與應用為主導的生物統計學課程建設
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合