?

我國農業生產產量多元統計分析
——基于因子分析和聚類分析

2019-03-06 11:37
福建質量管理 2019年3期
關鍵詞:油料甜菜甘蔗

(華東交通大學 江西 南昌 330013)

一、因子分析和聚類分析思想

(一)因子分析思想。因子分析的基本思想是根據相關性的大小把原始變量進行分組,使得同組類變量之間的相關性較高,而不同組的變量之間的相關性較低。規定每組變量代表一個基本的結構,然后再用一個不可觀測的綜合變量來表示它們,這個基本結構我們稱之為公共因子。把因子分析定義為:用少數幾個因子來描述眾多指標或眾多因素它們之間的相關性,這是以較少幾個因子反映原資料的大部分信息的統計學方法。

(二)聚類分析思想。聚類分析是指將物理或抽象對象的集合進行分組,再將集合分組為由類似的對象組成的多個類。它是一種比較重要的人為行為。聚類分析的目標是在比較相似的基礎上再來收集數據并進行分析。聚類分析來源于多個不同的學科,比如數據、計算機科學、統計學、生物學和經濟學等等學科。將這種方法應用在不同的領域,聚類技術近年來都得到了很大的發展,這些聚類技術方法首先被用作描述統計數據,根據統計數據來衡量不同數據源間的相似性,最終把這些不同的數據源分類到不同的簇中。

(三)指標的選取和說明。衡量各個省份農業的優勢和劣勢通過主要的農產品產量來實現,本文選取的8個指標,糧食、油料、棉花、甜菜、甘蔗、水果、煙葉、水產品,通過這8個產量指標能夠充分體現各省的農業優勢和劣勢。

(四)因子分析方法適用性檢驗。根據上述因子分析的原理,采用KMO和Bartlett檢驗對30個省份8個指標標準化數據進行相關性檢驗。如表1:

KMO檢驗是為了看數據是否時候進行因子分析,其取值范圍為0-1。本例中KMO的取值為0.551,表明可以進行因子分析。Bartlett球形檢驗是為了看數據是否來自于服從多元正態分布的總體,本例中sig值為0.000,說明數據來自正態分布總體,適合進一步分析。

表2

根據統計數據的特征值大于1,累計方差的貢獻率大于85%的規定原則,本文提取了4個主成分,其累計方差的貢獻率已達到至少86%,這說明前4個因子可以反映原始變量的信息,這可以說明具有顯著代表性,因此符合進一步分析的要求。選擇前四個主要的因子作為評價全國30個省份的農業產品產量的綜合性指標,而采用最大方差法來進行因子旋轉,最后得到旋轉后的因子載荷矩陣。旋轉后的成分矩陣可以反映主因子與原始變量的相關程度大小。根據載荷系數與因子的關系,載荷系數越大的,代表該指標與因子的相關性越強,這也就意味該因子反映了這個指標更多的信息。第一個因子反映了糧食與油料的載荷系數有較大關系,載荷值在85%以上;第二個因子主要與棉花、甜菜的載荷系數有關,載荷值在95%以上;第三個因子主要與甘蔗有關,其載荷值為90%以上;第四個因子主要與糧食、油料載荷系數有關,載荷值在82%以上。

表3

由成分得分系數矩陣可以直接寫出各公因子的表達式,值得一提的是,在表達式中各個變量已經不是原始數據而是標準化變量。表達式如下:

F1=0.389*糧食+0.407*油料+0.005*棉花-0.030*甜菜-0.125*甘蔗+0.278*水果+0.112*煙葉+0.116*水產品

F2=-0.032*糧食-0.039*油料+0.491*棉花+0.496*甜菜+0.042*甘蔗+0.108*水果-0.036*煙葉-0.122*水產品

F3=-0.190*糧食-0.134*油料+0.057*棉花-0.002*甜菜+0.760*甘蔗+0.251*水果+0.241*煙葉+0.262*水產品

F4=0.091*糧食+0.100*油料-0.010*棉花+0.057*甜菜+0.120*甘蔗-0.172*水果+0.720*煙葉-0.550*水產品

二、聚類分析

(1)K中心聚類分析

把數據錄入到spss軟件中,本例中有9個變量,分別為“地區”、“糧食”、“油料”、“棉花”、“甜菜”、“甘蔗”、“水果”、“煙葉”、“水產品”。把“地區”定義為字符型變量,其余8個變量為數值型,然后錄入完成。從表4可知,聚類1包含樣本數最多,為21個,聚類2包含樣本數最少,為1個。

表4

由表4展示了4個類的初始聚類中心點的情況。第三類指數除了糧食、甘蔗外均是最高的,第四類地區的糧食指數最高,第二類地區的甘蔗指數最高。

北京、天津、山西、內蒙古、遼寧、上海、浙江、福建、江西、湖北、廣東、海南、重慶、貴州、云南、西藏、陜西、甘肅、寧夏、新疆等地區屬于第一類,廣西屬于第二類,河北、江蘇、安徽、山東、河南、湖南、四川地區屬于第三類,吉林、黑龍江地區屬于第四類。

表5

從表5中可知,第一類地區的油料、棉花、甜菜、甘蔗、煙葉產量很高,糧食產量很低,水果、水產品產量較低;第二類地區甘蔗、水果、水產品產量很高,糧食、油料較低,棉花、甜菜、煙葉產量很低;第三類地區糧食、油料、棉花、水果、水產品、煙葉產量很高,甜菜相對較高,甘蔗產量很低;第四類地區糧食產量最高,油料、棉花、甜菜、甘蔗、水果、水產品都是最低的,煙葉相對較低。

有聚類分析可以很清晰明了的看出來,一些農作物是有很大的地域性的,比如甘蔗、甜菜、棉花。甘蔗盛產于熱帶以及亞熱帶地區,土壤肥沃、陽光充足、冬夏溫差大是保證其產量的必要條件,而北方地區,如北京、天津、河北、山西屬于溫帶季風氣候,中國適合生長甘蔗之地屬于秦嶺-淮河以南,比如浙江、安徽、江西、廣西等地區。再比如甜菜適合生長在深而富含有機質的松軟土壤,能夠忍耐鹽堿含量較高的土壤,但對強酸性土壤和低硼敏感,因而廣泛種植于溫帶和寒溫帶地區,由此可見,南方地區就不適合生長這一類農作物。至于糧食生產,有的地方產量很高,而有的地方產量低,這跟很多因素有關,比如氣候、政策、人力資源等等。

三、總結

農業是國民經濟的基礎,農業發展好了,國家的經濟發展才有保障,因此對農業生產的分析是很有必要的。本文通過選取2015年全國30個省份的8種農業產品產量來做因子分析和聚類分析,分析了哪些省份在哪些農業產品上具有農業產品生產的天然優勢,而在另外一些產品生產上又具有劣勢,這些原因的產生,有自然因素,又有人為因素。發展農業要因地制宜,因時制宜,具體問題具體分析。通過對全國農產品產量的分析,對我國農業生產方向有了大致的了解,能夠指引我們往正確的方向生產農業。

猜你喜歡
油料甜菜甘蔗
清明甘蔗“毒過蛇”
辣椒甜菜,各有所愛
甘蔗的問題
愛咬甘蔗的百歲爺爺
武漢白沙洲糧食和油料批發均價
新疆產區有機甜菜栽培技術探討
專用肥與種植密度對甜菜的影響
23個甘蔗品種對甘蔗黑穗病的抗性測定
基于廣義最大覆蓋模型的油料保障力量動員研究
二二三團甜菜主要病蟲害發生特點及防治
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合