?

基于R&D指標的先導性戰略新興產業發現研究

2013-08-01 11:01陳文俊賀正楚
財經理論與實踐 2013年1期
關鍵詞:新興產業長三角數據挖掘

陳文俊,賀正楚,吳 艷

(1.中南林業科技大學 經濟學院,湖南 長沙 410004; 2.長沙理工大學 經濟與管理學院,湖南 長沙 410114)*

一、引 言

甄選符合國情、適合我國產業與經濟特征的戰略新興產業,需要采用科學的識別方法[1]。戰略新興產業一般要具備全局性、先導性、關聯性和動態性等方面的產業特性與經濟特性[2]。不過,由于戰略新興產業都是一些發展時間還不長、產業規模也不大的新興產業,因此,其全局性、關聯性和動態性這三個方面的特征,在短期內就不甚明顯。至于戰略新興產業的先導性特征,是指該產業對國民經濟發展起方向性的引導作用,代表著技術發展和產業結構演進的方向[3]?!跋葘浴睆娬{的是戰略新興產業能引領我國產業發展戰略方向,代表產業的科技創新力乃至我國產業的潛在競爭力。R&D是在科學技術領域,為增加知識總量以及運用知識去創造新的應用進行的系統性的創造活動,R&D投入與水平體現著一國的政治經濟實力,企業的R&D則體現著企業的產品和產業競爭力。近些年隨著我國對高新技術產業的規劃(包括產業園區的建設、產業的引進),對R&D的重視以及經費投入的不斷增加,R&D對我國戰略新興產業的先導性作用開始顯現[4-5]。雖然目前戰略新興產業在規模和數量方面還不占優勢,但其產業先導性特質正日益凸顯。本文擬從R&D投入的視角探討如何甄選和發現先導性戰略新興產業。即采用知識發現功能,通過對有待鑒定的產業的R&D指標數據的歸納、分析和推理,發掘出創新力強、先導性明顯的戰略性新興產業。

數據挖掘是從大量的數據中挖掘出隱含的、未知的、用戶可能感興趣的和對決策有潛在價值的知識與規則。這些規則蘊含了數據庫中一組對象之間的特定關系,揭示出一些有用的信息,可以為經營決策、市場策劃和金融預測等提供依據。數據挖掘已經廣泛應用于政府管理、商業經營、科學研究及工業決策等領域[6-10]。由于數據挖掘是知識發現過程的一個步驟,因此在使用過程中,知識發現和數據挖掘二者通常不加以區分的使用。本文基于知識發現的功能來研究戰略新興產業的識別,采用數據挖掘關聯規則發掘戰略新興產業。依據各產業R&D指標數據庫,采取數據挖掘技術識別出潛在的、創新力較強的先導性戰略新興產業。

本研究依據先導性戰略新興產業的特點確定評價指標之后,采用關聯規則方法,結合R&D評價指標所要達到的標準,針對待評價的各個產業R&D評價指標標準不同,尋找某一產業R&D指標水平與各個產業R&D指標平均值的關聯關系,確定該產業在該指標水平下具備戰略新興產業的特質。作者曾依據戰略新興產業的全局性、關聯性、導向性和動態性特征構建了一套評價指標體系[2-4],本文仍沿用該指標體系,不過著重從產業先導性和創新性的角度進行評價和數據挖掘。

二、戰略新興產業數據挖掘關聯規則模型的建立

(一)戰略新興產業知識發現過程

采用知識發現功能識別戰略新興產業時,其整個過程包括在建立的指標數據庫中用數據挖掘算法提取模型,以及圍繞數據挖掘所進行的預處理和知識表達等一系列步驟,數據挖掘為整個過程的中心。戰略新興產業知識發現過程的具體步驟包括:

(1)目標定義:熟悉戰略新興產業識別背景、內涵及特征,了解所要達到的目標及操作的要求;(2)數據選擇:從不同的異構數據源中獲取各產業R&D指標數據;(3)數據預處理:由于數據源、數據類型及度量的多樣性,會存在一些不完整、錯誤的、冗余的數據,有必要對錯誤的數據進行修正或剔除,補充或預測缺失的數據;(4)數據挖掘:采用Apriori算法,從數據中提取出各產業指標數據與指標平均值之間的關聯關系,識別具備戰略新興產業特征的產業;(5)知識評估:評價和解釋發現的模式,根據需要對知識發現過程中某些階段進行處理,必要時,反復執行步驟(1)~(5);(6)知識輸出:采用可視化方法和知識表現技術將發現的模式展現出來。

(二)戰略新興產業數據挖掘關聯規則模型

關聯規則挖掘的目的是尋找出數據庫中不同數據項集之間隱藏的關聯關系,發現有待鑒別產業的R&D指標數據與指標平均數據之間的關聯關系。有關戰略新興產業數據挖掘關聯規則模型建立如下[11-12]:

定義1:關聯規則挖掘的數據集記為D(事務數據庫),D={t1,t2,…,tn},tk={ik1,ik2,…,ikp},tk為(k=1,2,…,n)一條事務(transactions),tkm(m=1,2,…,p)為事務中項目(item)。

定義2:設IR={i1,i2,…,im)是 D中全體項目組成的集合,IR的任何子集X稱為D中的項目集(itemset),且若|X|=σ,則稱集合X 為σ項目集(kiemset)。設tk和X 分別為D 中的事務和項目集,如果X?tk,稱事務tk包含項目集X,且事務tk有唯一的標識符TID。

定義3:數據集D中包含項目集X的事務數稱為項目集X 的支持數,記為support(X)。項目集X的 支 持 度 記 為Pr (X),則 有 Pr(X)=×100%。其中,|D|為數據集D的事務數。若Pr(X)不小于設定的最小支持度minsup(或s),則稱X為頻繁項目集,簡稱頻集(或大項目集),否則稱X為非頻繁項目集,簡稱非頻集(或小項目集)。

定理3:X、Y為數據集D中的項目集:(1)若X?Y,則Pr(X)≥Pr(Y);(2)若X?Y,如果X是非頻集,則Y也是非頻集;(3)若X?Y,如果Y是頻集,則X也是頻集。

定義4:關聯規則是描述數據庫中數據項之間存在的潛在關系的規則,形式為X?Y,其中X?IR,Y?IR,且attr(X)∩attr(Y)=?,X稱為規則頭(antecedent),Y稱為規則尾(consequent)。本文中所要考察的數據項之間的關聯表示:如果某產業指標值X(Y)在某一事務中達到一定水平時,那么指標平均值Y(X)出現的可能性則較高。則規則X?Y的支持度定義為Pr(X∪Y),表示X、Y同時出現的可能性,記作Pr(X?Y)=Pr(X∪Y)。關聯規則置信度(confidence)記作conf(X?Y),有lift(X?Y)=×100%。置信度用于衡量關聯)規則的可信程度,通常根據需要可設置最小置信度minconf(或c)。關聯規則作用度(lift),記lift(X?Y),有lift(X?Y)=×100%。作用度)描述了X對Y的影響力的大小,作用度越大,說明Y受X的影響越大,則X與Y關聯程度越強,根據需要可設置最低作用度minlift(或l),一般來說,有價值的關聯規則的作用度都應該大于1。

定義5:若關聯規則X?Y同時滿足Pr(X?Y)≥minsup,conf(X?Y)≥minconf,lift(X?Y)≥minlift。則稱關聯規則X?Y為強規則,否則稱關聯規則X?Y為弱規則。本文研究目的就是為了尋找出D中所有強規則。

(三)R&D指標的選取

以R&D經費投入強度作為判斷創新力強、先導性戰略地位突出的新興產業的重要指標,一直得到了世界范圍內的認可。黨夏寧、賀正楚等的研究也表明,無論是從定性還是定量的角度分析,R&D經費投入指標對于先導性明顯、創新力強的新興產業的支撐和識別,都具備科學的驗證性[13-15]。

R&D經費投入指標作為識別和支撐戰略新興產業的重要指標,是從資源投入的角度來進行衡量的。在產業實際發展過程中,科研經費的投入對于產業的科研創新支持、員工創新力知識的增強有著不可預知的特征,為此,在識別創新力強的戰略新興產業時,有必要根據R&D經費投入之后所能獲得的產出來進行關聯分析。專利指標是對產業或企業創新能力進行衡量的重要指標,具有時間序列性和年度產出的特質,R&D經費投入之后,具有一定的時滯性,但專利的出現是創新力與資源投入積累之后的成果,所以,采用專利指標作為戰略新興產業的創新力產出指標是合宜的。由于受利益的驅動,不少專利申請都含有一定的虛假成分,為此,本文所搜集的專利源自于經國家知識產權局和專利局認定之后的專利授權數。故而,本文的研究目標是根據R&D經費投入強度指標與專利授權量指標之間的強關聯規則關系,識別出擁有較強創新力的先導性戰略新興產業。

三、實證分析——以長三角地區為例

(一)基于關聯規則的長三角地區戰略新興產業實證研究

本文采用weka軟件對長三角地區戰略新興產業進行關聯規則分析,運行環境為Windows XP。

(1)數據源。根據我國國民經濟行業分類(GB/T4754-2002)標準,結合本文研究特點,選取2009年長三角地區共25個城市的戰略新興產業作為實證研究對象,每個城市的產業指標集合作為一條事務。本文針對統計年鑒中的戰略新興產業進行分類:新一代信息技術產業,包括通信設備、計算機及其他電子設備制造業;新材料產業,包括化學原料及化學制品制造業、化學纖維制造業、非金屬礦物制品業;新能源產業,包括電力、熱力的生產和供應業,石油加工、煉焦及核燃料加工業,燃氣生產和供應業;新能源汽車產業,包括電氣機械及器材制造業;高端裝備制造業,包括專用設備制造業、通用設備制造業、交通運輸設備制造業;生物醫藥產業,包括醫藥制造業;節能環保產業,包括水的生產和供應業、廢棄資源和廢舊材料回收加工業。

“R&D經費投入強度”評價是“戰略新興產業的先導性”指標體系中的一個重要指標[14],本文把該指標作為考察對象,研究長三角地區戰略新興產業的識別,同時,以2009年專利授權量指標作為與R&D發生關聯規則分析的產出指標(平均指標)。長三角地區戰略新興產業R&D經費投入強度的原始事務數據庫,見表1。

表1 長三角地區戰略新興產業R&D經費投入強度表

(2)數據預處理。在對數據進行錄入之后,由于weka軟件關聯規則只能處理分類型(nominal)數據,因此,得將數據庫中的數值型數據轉為分類型數據。例如,將產出指標(平均指標)“專利授權增加量”分類為高(high)和低(low)兩類,當人均生產總值<7000件時,則為low;人均生產總值≥7000元時,則為high。其他各指標數據均劃分為3個區間,值域小的落在low區間,值域為一般的或者高的落在medium(中等)或high(高)的區間。實際操作中,數值型數據的分類處理非常關鍵,劃分過粗,區間支持度太大,可能造成規則的置信度下降,以致達不到置信閾值;劃分太細,落入每個區間的事務數減少,很難找到滿足支持的閾值。由于各屬性的數據最大值與最小值相差過大,經過多番調試,依據最大值將屬性數據分為3個區間:low(低),medium(中等),high(高)。圖1為啟動weka軟件打開分類處理后的產業數據表,可以看到,新材料產業(new material industry)的類型(type)為分類型(nominal),且分為low、medium、high三個類型,無缺失值,見圖1。

圖1 新材料產業分類型數據視圖

(3)產業關聯規則參數設置與約束條件。采用Apriori算法,計劃挖掘出支持度在20%~100%之間,lift值超過1.1且lift排前15的關聯規則。將參數“lower Bound Min Support”和“upper Bound Min Support”分別設置為0.2和1,“metric Type”設為lift,“min Metric”設為1.1,“num Rules”設置為15,其他選項保持默認即可。約束條件為置信度conf>0.5。

(4)挖 掘 結 果。在 窗 口 “Explorer”中 點 擊“Start”運行算法,得出R&D指標下長三角地區戰略新興產業數據挖掘結果為(以下列出的為各屬性指標與平均指標之間的強關聯規則):Minimum support:0.4(10instances)。Minimum metric <lift>:1.1。Number of cycles performed:12。Generated sets of large itemsets:Size of set of large itemsets L(1):28;Size of set of large itemsets L(2):23。

Best rules found:average value=high 18?smelting and pressing of nonferrous metals=high 10,conf=0.56,lift=1.39;smelting and pressing of nonferrous metals=high 10?average value=high 10,conf=1,lift=1.39;average value=high 18?high-end equipment manufacturing industry,new energy vehicle=high 10,conf=0.56,lift=1.39;high-end equipment manufacturing industry,new energy vehicle=high 10?average value=high 10,conf=1,lift=1.39;average value=high 18?highend equipment manufacturing industry=high 12,conf=0.67,lift=1.28;high-end equipment manufacturing industry=high 13? average value=high 12,conf=0.92,lift=1.28;average value=high 18?bio-pharmaceutical industry=high 11,conf=0.61,lift=1.27;bio-pharmaceutical industry=high 12?average value=high 11,conf=0.92,lift=1.27;average value=high 18?plastic products=medium 10,conf=0.56,lift=1.26;plastic products=medium 11?average value=high 10,conf=0.91,lift=1.26。

可見,在R&D經費投入強度指標下,挖掘出長三角地區戰略新興產業的產業順序是:高端裝備制造業、生物醫藥產業、新材料、新一代信息技術及新能源產業。

(二)結果分析與政策建議

以上根據數據挖掘結果,確立了以高端裝備制造業、生物醫藥產業、新材料、新一代信息技術及新能源產業為主的戰略新興產業?;赗&D經費投入強度指標,采用知識發現工具,挖掘出與該指標產出目標下的專利授權量指標擁有強關聯關系的規則,有利于創新力強的戰略新興產業的識別,這對于長三角地區確立產業的戰略發展方向有著重要意義。電子信息產業和裝備制造業作為長三角地區的重點發展產業,已經形成了比較完善的產業基地和研發中心,這對于新一代信息技術和高端裝備制造的發展有著重要的支撐作用。本文的知識發現過程中也存在一些不足之處,譬如數據的整理:由于目前我國未有針對戰略新興產業的專門產業分類標準,數據搜集比較難,統計年鑒中的數據則比較完整,本文采用將統計年鑒中的產業重新劃分進行了關聯規則分析,但劃分的產業中也存在分類不精確、產業交叉、產業范圍擴大化、產業缺失等現象,在此,作者建議國家應盡快出臺相關政策對戰略新興產業的統計給予明確定位,這樣,對于戰略新興產業的發展可以實施動態的、科學的管理。

為此,政策建議如下:(1)在長三角地區實施戰略新興產業R&D效率評價。為了使R&D活動實現由模糊到具體、由靜態到動態的管理過程,進一步提升長三角地區戰略新興產業R&D經費的配置效率和利用效率,為此要建立一套科學有效的R&D效率評價指標體系,及時反映R&D經費投入的產出情況和使用效率,以便為政府相關部門及時作出相應的投入決策提供參考依據。在增加R&D經費投入時,也要大力提高R&D經費利用率,科學控制R&D經費和R&D人員投入規模,對有限經費進行合理配置,找出影響R&D效率提高的主要因素,并逐步改善。此外,長三角地區的蘇、浙、滬三地各自擁有優勢戰略新興產業,因此,可以相互交流借鑒經驗,共同提升長三角地區戰略新興產業的R&D效率。

(2)長三角地區戰略新興產業要盡快達到適度的產業規模。R&D經費投入的增加,要求產出增加的比例超過投入增加的比例。通過合理擴大戰略新興產業規模,在注重產出效率的同時,確保R&D活動持續高效地進行。作為長三角龍頭,上海市到2015年要成為在若干領域躋身世界前列的戰略新興產業集聚區,戰略新興產業中高端制造業占工業總產值比重爭取達到30%。2015年,江蘇省戰略新興產業增加值要占GDP比重的10%,2020年,比重要達到18%?!笆濉逼陂g,浙江省力爭戰略新興產業增加值年均增長15%以上,到2015年達到5000億元左右,占生產總值的比重達到12%左右,到2020年,戰略新興產業增加值占浙江省生產總值的比重接近20%。長三角地區要把其省級產業集聚區、省級以上高新技術產業開發區(園區)作為培育發展戰略新興產業的主陣地進行規劃建設,要求其戰略新興產業增加值占生產總值的比重每年提高3個百分點以上。省級以上經濟開發區(園區)、產業集群示范區則要求每年提高2個百分點以上。

(3)2006~2009年,長三角地區R&D經費內部支出總額為729.60億元,發明專利16330件,專利申請數33929項。2006-2009年,長三角地區在產業的R&D投入強度方面(R&D費用/工業總產值),分別是0.9%、0.88%、0.91%、1.19%,雖然總體上呈現出逐年上升的態勢,但是卻明顯低于全國平均水平(2006~2009年,全國平均水平分別是1.09%、1.08%、1.15%、1.28%)。美國在2006年的產業R&D投入強度為16.41%[15]。為了縮小與全國平均水平以及發達國家的差距,長三角地區應加大R&D經費投入強度。

[1]彭金榮,李春紅.國外戰略性新興產業的發展態勢及啟示[J].改革與戰略,2011,27(2).

[2]賀正楚,吳艷.戰略性新興產業的評價與選擇[J].科學學研究,2011,29(5):678-683.

[3]賀正楚,張蜜.生物醫藥產業共性技術路線圖研究[J].中國軟科學,2012,(7):49-60.

[4]張良橋,吳艷.基于灰色關聯分析的戰略性新興產業評價——以生物醫藥為例[J].經濟數學,2010,27(3):71-77.

[5]張訓.戰略性新興產業的選擇與評價及實證分析[J].科學學與科學技術管理,2010(12):62-67.

[6]Margaret H.Dunham.數據挖掘教程[M].北京:清華大學出版社,2005:8-11.

[7]Ming-Syan Chen,Jiawei Han,Philip S.Yu.Data Mining:An Overview from a Database Perspective[J].IEEE Transactions on Knowledge and Data Engineering,1996,8(6):866-883.

[8]陳安,陳寧,周龍驤等.數據挖掘技術及應用[M].科學出版社,2006:40-47.

[9]Rakesh Agrawal,Tomasz Imielinski,Arun Swami.Mining Association Rules Between Sets of Items in Large Databases[J].ACM SIGMOD,1993.207-216.

[10]陳士俊,賴迪輝.數據挖掘在科技評估中的應用[J].科學學與科學技術管理,2005,(4):40-43.

[11]馬超群,蘭秋軍,陳為民.金融數據挖掘[M].北京:科學出版社,2007:57-69.

[12]吳艷,周震虹.戰略性新興產業評估指標實證遴選及其應用[J].中國科技論壇,2011(5):10-14.

[13]黨夏寧.中國高新技術產業的國際競爭力[J].西安財經學院學報,2009,22(6):80-83.

[14]賀正楚,吳艷,周震虹.基于知識發現的戰略性新興產業識別研究:兼論“長三角”戰略性新興產業的發展[J].南京財經大學學報,2012,30(4):22-28.

[15]董潔,張體委.長三角地區高技術產業R&D資源配置效率優化研究[J].科技進步與對策,2012,29(21):49-54.

猜你喜歡
新興產業長三角數據挖掘
緊扣一體化 全面融入長三角
探討人工智能與數據挖掘發展趨勢
“首屆長三角新青年改稿會”作品選
基于并行計算的大數據挖掘在電網中的應用
戰略性新興產業與大國崛起
長三角瞭望
長三角瞭望
一種基于Hadoop的大數據挖掘云服務及應用
新興產業市場績效提升的現狀及建議
在新興產業看小元件如何發揮大作用
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合