?

基于“三新”企業分層抽樣單元權重動態調整的估計方法

2024-03-13 02:38張維群成鵬東
統計與信息論壇 2024年3期
關鍵詞:估計量三新變動

張維群,成鵬東

(西安財經大學 統計學院,陜西 西安 710100)

一、引言

得益于大數據技術的發展,社會經濟活動的形式日新月異,誕生了大量具有新產業屬性的企業,由此也不斷催生出新的商業模式和更多的業態[1]。近年來,隨著互聯網與傳統行業加速滲透,“三新”企業正成長為新經濟活動的重要組成部分,國家統計局對此也制定了專項統計報表制度,并于2018年發布了《新產業新業態新商業模式統計分類》(國統字〔2018〕111號)。為指導中國新經濟生產核算工作,彭剛等基于SNA視角探究了新經濟生產核算的相關問題,指出可以借鑒R&D核算制度,通過引入“三新”統計方法來落實相關的核算工作[2],這對中國統計部門在認識新經濟方面提供了一定的借鑒。寧吉喆也提出,提升高新技術產業的統計能力,依托“三新”企業高質量數據資源,提取有價值的信息并進行分析,有助于全面反映新經濟的發展狀況[3]。于是,針對“三新”企業開展統計調查并進行動態監測,成為了經濟統計領域新的關注點,例如賀建風等在關于政府統計監測體系的研究中指出,要不斷改革企業數據的統計方法,強調抽樣調查是掌握“三新”經濟活動最新動態的有效方法[4]。

目前,基于“三新”企業開展抽樣工作的難點主要是調查對象的情況比較復雜,信息化和高勞動生產率的特點,使得“三新”企業總體數量特征的變換比較快、變動幅度也比較大[5]。以企業年主營收入指標為例,在總體分層抽樣框中,不同層級范疇內的單元同期內的變動差異較大,金勇進等對湖北省工業企業的年主營收入進行了連續調查,結果表明:年主營收入在2 000萬元左右的企業,數據總體起伏比較明顯,這其中有相當數量的單位是短期內注冊的,另一方面,那些年主營收入超過1億元的企業,其調查結果則呈現出較為穩定的趨勢[6]。但是,在實踐中通常無法及時地更新抽樣框信息來反映調查總體的變動信息,單靠固定抽樣框進行取樣調查與估計的傳統方法,就可能對總體數量特征的估計產生較大誤差,難以及時、全面地掌握調查總體的最新態勢、發展規模和產業結構。

具體而言,“三新”企業總體特征參數的變動主要具有兩個特征:其一是短期內會出現很多新的單元;其二是部分單元的分布層級會發生變化,從而改變整體的分層結構和分層規模。如果仍然采用固定抽樣框下的傳統估計方法,基于特征一,部分新生的單元無法入樣,影響樣本代表性,Little等指出在經濟統計領域中采取的抽樣設計要最大限度地挖掘抽樣框中相應的數據信息,以對沖選擇偏差對估計結果的影響,若是忽略代表性誤差的干擾,可能會得到有誤導性的結論[7];基于特征二,固定抽樣框內部的分層結構與總體實際的分布結構之間存在差異,這種與總體結構差異較大的樣本會降低分層抽樣的估計效率,對統計推斷的準確性和有效性產生影響[8]。

鑒于此,本文針對“三新”企業總體單元變化快、變動大的特點,探討了新的抽樣估計方法來提高樣本的代表性,并改進對于總體數量特征的估計精度,嘗試獲取及時且準確的數據資源,為“三新”經濟統計監測體系的構建提供有效參考。

為準確估計調查總體變動后的規模和水平,現有的抽樣估計思路是:基于多重抽樣框理論,對老化的抽樣框進行修正,然后采用分離抽樣框的估計方法,推斷總體的數量特征。例如,在機器學習研究領域,李毅等設計了實施多指標均勻設計抽樣調查的算法框架,為利用輔助信息修正樣本分布結構,提升動態數據樣本代表性提供了理論上的佐證[9]?;诖髷祿尘?萬舒晨等利用多源數據融合技術,對小微型企業進行多重抽樣框設計,通過名錄框和區域框的組合估計,有效控制了動態總體的抽樣誤差,并基于實證研究,明確了抽樣框外的信息能夠有效彌補抽樣框與實際總體不一致的缺陷[10]。人口統計領域,李樂玲等為復雜抽樣數據事后分層權重的估計提供方案,應用事后分層權重調整人口學構成使得樣本的分布結構與實際人口構成相一致,據此獲得了各層參數的合計估計值,有效提高了該領域參數估計和假設檢驗的準確性[11]。以中國住戶調查數據為例,鞏紅禹等從抽樣設計的事前保證和事后評估兩個視角,給出了獲得分層平衡樣本的方法,研究了分層平衡樣本的代表性問題,認為基于事后分層抽樣技術提取子總體特征信息,可以進一步對總體和各層的數量特征進行推斷[12]?;谑潞蠓謱訕颖?李濤等設計了關于刪除數據的保序估計,依據樣本中出現空層可能性的大小,整理排序抽取的樣本,并利用與空層相近的非空層估計代替空層,據此構造了相應的保序Kaplan-Meier估計,提升了整體的估計效率[13]。

特別地,針對新生單元無法入樣的問題,一種可行的思路是將其視為不可觀測的缺失數據,然后采用熱平臺插補進行估計,相關的理論研究有:Kim等設計了基于回答概率的插補方法,明確了對不完整數據采取插補的目的并不是估計單個的無響應數據,而是為了預測不響應數據所服從的分布[14];在實踐中,單一插補的估計方法往往會低估方差的大小,于是為了有效估計因插補而產生的不確定性,Toutenburg等對近似貝葉斯自舉法(ABB)展開研究,設計了基于多重插補的抽樣估計方法,并討論了抽樣誤差的大小,這為預測實際的總體分布彌補估計標準誤差的損失提供了理論上的依據[15]。在此基礎上,于力超等具體研究了分層結構中缺失數據集的插補估計方法,模擬實驗的結果表明:在分層抽樣框模型中應用多重插補技術,其估計結果的準確性會受到缺失機制和數據缺失比例的影響,并且估計量的有效性比較低[16]。

經過上述梳理,可以發現:構建多重抽樣框的設計思路和估計方法比較復雜,目前還沒有形成較為通用的抽樣流程,在不同的研究場景下,其目標變量估計量的形式也不盡相同,而基于缺失數據分析進行估計的思路,無法有效地控制抽樣誤差。于是,本文從“三新”企業抽樣調查的現實需求出發,為這一類動態總體提供一種具有一定通用性的抽樣設計與估計方法。首先,基于樣本分布結構,把樣本單位劃分為固定抽樣框內的單位和固定抽樣框外的單位;然后,通過事后分層估計的方法,為發生變動的單元創建一個預測分布的方法,來推斷總體結構的變動特征,以提升樣本的代表性;最后,基于層規模的變動特征對總體目標變量估計量的權重進行調整,實現對于抽樣誤差的控制,并給出關于總體數量特征估計量的一般形式。

二、基于“三新”企業分層抽樣單元權重動態調整的抽樣設計

把作為已知信息的過往抽樣框稱為固定抽樣框,把發生變動之后的未知抽樣框稱為實際抽樣框。本文的研究思路為:基于固定抽樣框提供的信息,針對調查總體開展抽樣設計,并通過分層抽樣單元權重的動態調整來構造復合估計量,推斷實際抽樣框的總體容量和總體總量。

以固定抽樣框的分層結構為基準,可以在實際抽樣框中把總體單元劃分為兩類:

第一類,保留單元。指的是與基準相比,分布層級相同的單元,調查樣本中由保留單元構成的部分稱為保留子樣本,定義由保留子樣本構造的估計量稱為保留子樣本統計量;

第二類,轉移單元。包括在實際抽樣框中新出現的單元以及與基準相比,分布層級發生了變動的單元,調查樣本中由轉移單元構成的部分成為轉移子樣本,定義由轉移子樣本構造的估計量稱為轉移子樣本統計量。

顯然,基于這兩個統計量進行恰當的加權綜合就可以構造關于整體數量特征的復合估計量。其中,保留子樣本統計量及其權重可以基于固定抽樣框進行取樣調查,并采用事后分層估計的方法來構造和計算;而由于實際抽樣框未知,轉移單元的分層結構和抽樣權重則需要動態調整。于是,這里假定在實際抽樣框中,同一層級中單元的水平分布近似相同,借鑒熱平臺插補缺失數據,能夠有效保留子樣本信息,并保證分層樣本中數據分布性質不變的思想[17],考慮把轉移單元的數據信息分攤在保留單元當中,并利用事后分層樣本中的輔助信息,來預測變動后的總體結構,據此實現對于轉移單元權重的動態調整,并將保留子樣本和轉移子樣本的數據信息整合起來,構造關于整體數量特征的復合估計量。

綜上所述,給出了如圖1所示的設計思路。

圖1 分層抽樣單元權重動態調整估計方法的設計思路

首先,在抽樣框未知的情況下,對調查總體進行兩次獨立的非概率抽樣,基于選定樣本的實際觀測結果,進行事后分層處理,得到事后分層樣本A和B,對比固定抽樣框的結構分別確定樣本A和B中各層保留單位和轉移單位的數目,挖掘各層的變動規律,并分別估計總體單元的層級保留概率和層級轉移概率,由此構造層規模的簡單綜合估計量,以實現對于實際抽樣框分布結構的短期預測。

最后,在同質層內單元的分布特征近似相同的假定下,利用層規模的變動預測對轉移子樣本的分布結構進行動態調整,基于自我加權設計把這兩部分子樣本統一為完整且結構依賴于總體分布的代表性樣本,并實現對于總體總量復合估計量的構造。

三、總體總量估計量的構造

表1 分層抽樣單元權重動態調整估計方法設計中的符號及注釋

(一)總體容量簡單綜合估計量的構造

基于本文對于調查總體單元的劃分,總體容量可以表示為同質層內保留單元與轉移單元的規模之和,于是由固定抽樣框的總體容量、層級保留概率和轉移概率構造各層總體規模的簡單綜合估計量,表達式如式(1)所示:

(1)

(2)

(3)

(二)總體總量復合估計量的構造

(4)

而針對保留子樣本Si,每一層內采取的是簡單隨機抽樣,第i層內的每一個保留單元yij在理論上都有相同的入樣概率,因此單獨的保留子樣本并不能直接反映總體的分布結構,應當對每一個入樣的單位yij進行修正,于是采用估計量的自我加權設計理論[19],基于抽樣方式和估計方法設定相應合理的權重,對樣本觀測結果進行加權處理,以調整樣本分布結構,實現對于完整抽樣框的覆蓋[20],提升樣本的代表性,使得總體參數的估計量無偏。

由此,本文參考熊巍和程豪等基于逆概率加權修正估計量,以減少估計偏差的設計方法[21-22],基于事后分層樣本A中的保留樣本單位數目mi對保留單元的入樣權重進行動態調整。

(5)

(6)

(7)

(三)估計統計量的優良性評價

本文設計的基于“三新”企業分層抽樣單元權重調整的估計方法存在如下假定以及結論:

Ⅰ.保留子樣本來自簡單隨機抽樣,保留子樣本均值統計量具有無偏性[19]。即存在式(8):

(8)

Ⅱ.r和m源自獨立的樣本,是獨立的隨機變量,且都是總體中保留單元實際數量M的無偏估計量。即存在式(9):

(9)

首先,無放回簡單隨機抽樣下,總體總量估計量方差的計算公式為[25]:

(10)

其中,s2為樣本方差,f為抽樣比,樣本方差的計算公式如下:

(11)

(12)

(13)

詳細推導過程如下所示:

其中,表達式里的第一項代表了保留子樣本的方差,而第二項則體現了由預測分布修正樣本分布結構所帶來的方差增長。

四、分層抽樣單元權重動態調整估計方法的模擬實驗

(一)總體數據庫的生成

基于蒙特卡洛方法產生隨機數,描述企業單元的產值,形成初始抽樣框數據集,并對數據單元進行隨機擾動處理,模擬實際中受市場機制驅動而產生的數據變動,由此形成“三新”企業動態總體數據庫。數據庫的生成過程由以下三個步驟完成。

1.生成原始的固定抽樣框

首先,依據正態分布N(100,106)生成5 000個隨機數據并對所有數據取絕對值,此時,數據集的均值為794.315,標準差為602.227;

其次,基于層內數據方差小而層間數據方差大的原則,把數據集劃分為低、中、高三層結構分布,形成固定抽樣框U1。

圖2是數據庫U1分布圖像,可以發現:高層級的企業單位在總體中的占比很低,大多數企業為中等或小型企業,這也和中國企業的規模及水平呈現較大分布差異的調查結論相一致。

圖2 固定抽樣框U1各層級數據分布

表2展示了數據庫U1的特征參數,可以發現:層內數據差異水平低,各層級內的標準差分別191.198、223.743和375.091,都非常小,其加權綜合的結果一般也小于分層時的總體標準差605.302,考慮到統計量估計誤差與總體方差成正比[22],這也進一步表明適宜采用分層抽樣的方法估計“三新”企業的數量特征,以控制抽樣誤差的大小。

表2 固定抽樣框U1各層數據特征表

2.抽樣框U1的變動處理

其次,設定一個參數ai,用于描述各層數據單元的變化率,其絕對值的實際含義為短期內企業單元的變動幅度。對剩余的數據單元分別乘以ai,實現單元數據大小的隨機擾動,以模擬企業單元經營水平的波動情況。為使得單元變動呈現一定的隨機效應,這里變化率ai的取值來自不同分布下的隨機數,設置a1~U(0.93,1.07)、a2~U(0.97,1.03)和a3~U(0.99,1.01)。

圖3是抽樣框動態變動前后的分布對比圖,其中內環刻畫了調查總體初始的數據分布情況,外環代表變動后的數據分布情況,二者的分層結構差異比較明顯,實際抽樣框U2比較有效地刻畫了企業發展過程中復雜的隨機性和單元變動特征。

圖3 抽樣框變動前后的分布對比

3.生成最終的實際抽樣框

首先,由N(50,100)隨機生成300個新數據并取絕對值,添加到變動處理后的數據總體中,構成最終的實際總體。

其次,依據抽樣框U1中確定的分層標準,對最終的調查總體重新判定并進行分層,形成最終的實際抽樣框U2。實際抽樣框U2各項數量特征匯總如表3所示。

表3 模擬數據庫U2的數量特征表

(二)抽樣估計的模擬過程

基于上面生成的數據集,開展抽樣模擬實驗,并估計總體參數。為有效驗證抽樣方法的估計效果,模擬內容分為實驗組與對照組。前者模擬的是本文設計的估計方法,后者模擬的是基于固定抽樣框進行簡單隨機抽樣估計的傳統方法。

抽樣估計的模擬實驗過程為:在U1已知的條件下,分別采用對照組和實驗組的估計方法,推斷U2的總體容量和總體總量。

1.實驗組模擬

其次,設定與步驟一相同的分層樣本容量,基于U1選定抽樣單位,形成取樣名錄,并在U2中進行調查,在各層樣本中僅保留與U1分布結構完全一樣的樣本單位,由此確定保留子樣本數據集Si,其容量ri=(116,73,15)。

2.對照組模擬

(三)模擬實驗的結果比較

1.實驗組和對照組樣本代表性的比較

總體單元數據分布頻率與樣本單位數據分布頻率的一致程度可以用來評估樣本代表性[8]。于是,基于U2總體數據和模擬實驗中獲得的樣本數據分別繪制核密度圖像,近似展示各數據單元的頻率分布特征,如圖4所示。

圖4 總體與樣本數據分布的比較

觀察圖4(a)可以發現:總體抽樣框U2中有大量數據點分布在靠左的位置,遠離數據群,呈現出明顯的右偏態,這與其模擬的“三新”企業總體在實際中的分布結構比較相符,即小規模和中等規模的企業在總體容量中占據大多數。此外,對照組樣本單位的數據分布更加接近正態分布,與需要逼近的總體分布形狀差異較大,而實驗組樣本單位的數據分布的結構則準確地刻畫真實的總體單元分布結構。

基于此,從樣本分布結構的角度來說,對照組獲得的是非代表性樣本,針對動態總體的參數估計一般是不準確、有較大誤差的;而實驗組可以獲得關于“三新”企業的代表性樣本,據此樣本信息進行統計推斷可以滿足“三新”經濟背景下企業抽樣調查的現實需求。

2.實驗組和對照組估計結果量優良性的比較

圖5 估計總體容量的估計效果

圖6 估計總體總量的模擬效果

圖5是實驗組對于總體容量多次重復估計結果與估計偏差的分布情況;而圖6中的兩幅圖分別反映了實驗組估計方法和對照組估計方法對于總體總量的估計效果。

由圖5可知,在多次重復抽樣估計的實驗中,對于總體容量的估計值大致分布在4 880(總體容量真實值)左右,數據圖像的箱體寬度也比較小,此外估計的相對偏差也集中在零點附近,數據分布呈現明顯的集中趨勢,波動范圍大多限制在6%以內,可以表明本文構造的關于總體容量的簡單綜合估計量是準確且可靠的,在大量重復估計情形下,其抽樣誤差是可控的。

比較圖6(a)和圖6(b)的分布位置和相對大小可以發現,第一,對照組模擬結果數據整體上處在零值的上側,實驗組模擬結果數據大致集中在零值附近。這表明,對照組的模擬結果普遍高估了總體的真實水平,估計方法存在系統性偏差,而實驗組的模擬結果在大量重復估計下大致是無偏的。由此可見,針對動態總體,不考察樣本分布結構的變動、無視數據缺失,基于簡單隨機抽樣構造樣本均值估計量的傳統方法是極不準確的,而基于“三新”企業分層抽樣單元權重動態調整的估計方法對于總體總量的估計結果總體上是無偏的。

第二,對照組的模擬結果數據集顯然具有更大的方差,而實驗組的模擬結果數據則有更加顯著的集中趨勢,相對誤差的數值精度更高,由此可見,在大量重復估計中,相比對照組的估計結果,實驗組的估計結果具有更小的抽樣誤差,構造的總體總量復合估計量也是更加有效的。

綜上所述,模擬實驗結果表明:由于調查總體單元變化快、變動大,在固定抽樣框下進行簡單隨機抽樣獲取的樣本,其分布結構與總體分布結構之間存在較大差異,樣本代表性低,依據該樣本進行參數估計通常存在著較大的偏誤,這種傳統的抽樣估計方法已經無法實現對于“三新”企業的規模和水平進行及時、有效的推斷;而本文設計的基于“三新”企業分層抽樣單元權重動態調整的估計方法,可以有效地優化樣本分布結構,提升樣本的代表性,并提高對總體數量特征估計的準確性,其構造的總體總量復合估計量是無偏且有效的,該方法在“三新”企業和其他同類型動態總體的抽樣調查實踐中有一定的應用價值。

五、結論

本文闡述了“三新”企業總體單元變化快、變動大的特點,從基于轉移單元調整樣本分布結構的角度出發,為這一類動態總體提供了一種具有較高估計效率的抽樣設計和估計方法。其基本的思路是:首先,把樣本劃分為保留子樣本和轉移子樣本,分別用來提取固定抽樣框內的數據信息以及固定抽樣框外的數據信息;其次,采用事后分層的方法挖掘出各層單元的變動特征,從而實現對于層總體容量的動態推斷;再次,基于保留子樣本目標變量統計量提供的信息,對轉移子樣本目標變量的水平進行短期預測;最后,對目標變量估計量進行自我加權設計以構造總體參數動態變動后的復合估計量,證明了該估計量的無偏性,并推導了抽樣誤差的估計公式。

在研究視角方面,本文從調整樣本結構的角度出發,提出了一種基于變動單元的抽樣權重調整樣本結構的方法,這種方法能夠獲得更具代表性的樣本,從而有效地發揮分層抽樣控制抽樣誤差的優勢。通過對樣本分布結構進行合理的調整,保證樣本的代表性和可靠性,從而提高研究的準確性和可信度;在研究理論方面,本文聚焦于分層總體的研究對象,并考慮到調查單元頻繁變動、總體分層規模和分布結構的變化情況,針對這一問題,本文建立了基于過往普查數據資源的固定抽樣框,并在此基礎上對抽樣單元進行細致劃分,建立相應的分層抽樣模型,這種方法為復合估計量的設計提供了新的思路,為研究者提供了更靈活、準確的工具。在研究方法方面,傳統的基于動態總體構建多重抽樣框的方法設計較為復雜,且缺乏通用的抽樣估計方法,另外這些方法往往依賴于調查對象的固有屬性和信息化技術的發展水平,難以適用于不同研究主體。為解決這一問題,本文提出了一種多水平連續調查的方法,通過利用過往的完整數據資源,預測抽樣單元的變動信息,并據此調整樣本結構,提升整體樣本的代表性,這種方法不僅可以增強調查數據的質量,還能夠在存在單元頻繁變動的動態總體中發揮較高的通用性,并可適用于各個領域的抽樣估計,為研究者提供了更廣泛的應用空間。

模擬實驗表明:相比于在固定抽樣框下進行簡單隨機抽樣的傳統方法,采用本文設計的抽樣估計方法可以獲得具有更高代表性的樣本,對調查總體數量特征的估計精度也更高。采用本文的估計方法可以為“三新”經濟統計監測體系的構建提供具有較高質量的數據資源,此外,該方法構造的復合估計量也可適用于其他同類型的調查總體,是對動態總體抽樣調查理論的有效探索。

事實上,為滿足當前“三新”企業抽樣調查的實際需求,本文探索了合理且可行的估計方法,但在動態總體研究領域還缺乏理論層面更加深入的研究。一方面,本文基于總體單元分層結構的變動,修正了復合估計量的權重,這種處理方法模糊了同一層級中調查單元的差異特征,在未來的研究中,可以進一步討論動態總體抽樣框在更一般變動情形下的估計方法;另一方面,本文僅聚焦“三新”企業變動特征,構造了“三新”企業總體信息的估計量,并推導了抽樣誤差的估計表達式,如何在復合估計量方差約束條件下實現樣本量的最優分配,以及分層結構的劃分也都是需要進一步解決的理論問題。

此外,考慮到“三新”企業相關變量的數據質量不佳,當前也缺乏相應的專業數據采集工具,所以本文研究停留在實驗模擬的階段,僅以固定抽樣框下的傳統方法為對照,針對模擬數據,對設計的估計方法做了優良性驗證,并沒有基于現實中企業實際經營數據進行更加深入的研究分析,在未來可以考慮依據“三新”企業調查數據特征開展實證分析,設計新的抽樣方法,并對估計量進行相應的修正,為動態總體抽樣估計方法研究提出更為通用的理論基礎。

猜你喜歡
估計量三新變動
北上資金持倉、持股變動
北向資金持倉、持股變動
南向資金持倉、持股變動
變動的是心
淺談估計量的優良性標準
全國第三屆“三新”作文教學研討會論文大賽啟事
縱覽之“三新”
縱覽之“三新”
基于配網先驗信息的諧波狀態估計量測點最優配置
負極值指標估計量的漸近性質
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合