?

用戶標簽揭示進出口量:基于標簽共現的空間關聯性分析

2022-06-05 04:46張雙印
測繪地理信息 2022年3期
關鍵詞:關聯性關聯強度

游 想 張雙印 費 騰

1武漢大學資源與環境科學學院,湖北武漢,430079

2武漢大學測繪遙感信息工程國家重點實驗室,湖北武漢,430079

區域間的關聯性研究對促進區域協調發展具有重要意義。而區域關聯性分析取決于如何利用關聯這些區域的各種數據。有眾多研究強調了網絡嵌入對區域關聯性研究的重要性[1?7]。而在很大一部分研究中,區域關系是基于網絡中節點之間的流量數據計算的,如交通流量、乘客流量、人口遷移[8?10];或基于在線用戶生成數據計算。例如,Flickr網站上用戶位置信息作為一種在線用戶生成數據資源,被用于量化人類的旅行流量[11,12],進而被用于分析區域間的關聯性;微博也是一種在線用戶生成的數據資源,可通過研究微博用戶的社會關系和地理位置變化來確定區域相關性[13,14]。以上研究主要針對用戶帶來的實際流和虛擬流,僅利用人口流動和人際交往的目標和強度來描述區域間關聯性強度不夠全面,這些研究本質上只圍繞存在于“第一空間”[15]的流進行,“第二空間”中的流則被有意或無意地忽略了?!暗谝豢臻g”即人們看到的“物理”空間,是一門物質的、可見的、可測量的、對空間客觀判定的正式科學;“第二空間”指人的感知與“第一空間”的結合,是對空間進行建模和概念化的規劃者和城市學家的空間[15]。

Twitter、Flickr和微博等社交網絡應用程序的使用已然是一種潮流,這為從人的感知角度來研究區域聯系提供了數據依據。隨著這些社交應用的興起,出現了一些關于社交網絡應用的共現分析研究[16,17],其中,較為簡單的標簽共現分析主要被用來研究這些標簽之間的關系,或進行標簽特征分析和語義分析,很少被用于區域關聯性分析。本文利用Flickr中用戶生成的標簽數據,通過標簽共現分析從人類感知的角度來研究世界各地之間更加全面的關聯。本文使用帶有地理坐標的用戶標簽數據進行研究,避免了地名的模糊性問題,在“第二空間”中繪制了區域間的概念流,且為了進一步探索該方法的潛在實用性,選取了一些樣本國家,對由本文方法計算出的它們之間的概念關聯強度與貿易交互量進行了相關性分析。

1 研究數據與方法

1.1 研究數據

本文所用的全球用戶標簽數據和相應的位置信息是從Yahoo Flickr Creative Commons 100 Million(YFCC100M)數據集中提取的,該數據集包含2004?04—2014?08拍攝的公開的照片。提取其中最常用的20 000個英文標簽作為研究數據,排除了一些沒有實際意義的單詞,如“at”和“to”這些常用介詞。

1.2 研究方法

如果兩個地名同時出現在同一文本中,則可以認為它們有關聯[18,19]。在本文中,如果兩個區域被相同的標簽標記,則認為它們有關聯。具有相同標簽的區域可視為網絡中的兩個節點被這個標簽所關聯,并在網絡中由一條邊連接表示該關聯關系。區域之間的邊連接得越多,表示這些區域被越多相同的標簽所標記,即這些區域之間的概念關聯強度越強。在Bonne投影下,將世界地圖分割成多個100×100 km的標準網格,構造一個查找表,表的一側列出了所有有效的用戶標簽,表的另一側對應相應用戶標簽所在的網格編碼。

1.2.1 節點之間的概念關聯性

1)構建標簽網絡。在查找表中,一個標簽可以對應多個網格,先將這些網格視為節點,具有相同標簽的任意兩個節點都可以通過邊連接,從而形成每個標簽的網絡;再將20 000個標簽的所有網絡疊加,形成一個包含13 968個相關聯節點(網格)的集成網絡。在這個集成網絡中,任意兩個節點之間的邊數表示有多少相同的用戶標簽被用來描述這兩個不同的位置(區域),或者在另一個意義上,表示它們之間概念關聯強度。通常,節點之間連接的邊的數量越多,表示節點之間的關聯度越強。

2)基于標簽網絡計算概念關聯強度。通過不同方式給節點之間的邊賦權重,以下指標可用于計算標簽共現網絡中節點之間的概念關聯強度:

①節點之間的邊數(number of edges,NE)。在這個指標中,所有邊的權重都是相等的,具體到每條邊,lm ij表示節點i和節點j被標簽m同時標記一次,不考慮帶有標簽m的照片在這兩個節點中的數量??紤]到節點所包含的標簽個數的影響,即對于同一個共現標簽,不同節點包含的帶有該標簽的照片數目有所不同。在計算兩節點之間的關聯強度時,該指標記錄了兩個節點中出現的所有標簽的數目,再令節點間的邊數除以該數目。即對于節點i、j,Ti和Tj分別是節點i、j中出現的標簽集合,Tij是Ti和Tj的并集,tij是集合Tij中包含的不同標簽個數。NE指標計算的節點i、j之間的關聯強度如下:

式中,M是所有標簽總數,等于20 000;Om i表示節點i中是否有標簽m,有則為1,反之為0。

②節點之間邊的權重之和(sum of the weight of edges,SWE)。不同共現標簽可能對兩個節點之間的關聯強度貢獻不同,相同標簽所對應的照片數量在不同節點中可能會有很大差異。鑒于此,每個節點中每個標簽的照片數量被記錄下來用于計算這個新指標(SWE),每條邊的權重由一對節點中所包含的由共同標簽所標記的較少照片數量表示,不同的邊可能具有不同的權重:

行業事業單位需要建立大型設備的使用管理新模式,不能僅滿足于正常開展教育教學、衛生醫療、科學研究等行業事業需求,需要借助信息化系統提高使用績效,最大化提高管理手段的豐富性、規范性,做到有章可循。國子軟件長期致力于行業資產管理理論研究,將結合豐富的管理軟件實踐及服務經驗,助力各單位的大型設備使用績效管理的提升。

在SWE指標中,對于每個節點對,它們之間不同邊的權重變化很大,權重較大的邊可能會掩蓋權重較小的邊對節點間關聯強度的貢獻。為了減少權重大的邊對節點之間概念關聯強度的貢獻,加強邊的數量對節點之間概念關聯強度的貢獻,本文提出了一個新的指標SWE?log,在這個指標中,邏輯回歸函數被應用于邊權重的計算,計算公式如下:

式中,z為閾值,通過多次實驗選擇了所有權重的均值作為z;e表示自然常數。

③詞頻?逆向文檔頻率的節點間邊的權值之和(sum of the weight of edges term frequency?inverse document frequency,SWE?TF?IDF)。節點中普遍存在的標簽共現對節點之間的概念關聯強度通常不太重要,為了減弱廣泛分布的標簽(在眾多節點所有節點中出現)的影響,采用TF?IDF方法來度量邊的權重。在文本挖掘預處理中,TF?IDF是一種統計方法,用于評估單個單詞對文集語料庫中的文檔集或其中一個文檔的重要性。單詞對某個文檔的重要性隨著它們在該文檔中出現次數的增加而增加,但隨著它們在整個語料庫中出現頻率的上升而降低。在該指標中,TF?IDF被用于評估每條共現邊對節點之間概念關聯強度的重要性,邊的權重計算如下:

式中,Fm表示出現標簽m的節點數;F表示節點總數;Ni表示節點i中的照片總數。節點之間的概念關聯強度計算公式如下:

1.2.2 國家之間的概念關聯性

1.2.3 交互作用與相似性的較量

為了確定本文方法得到的這些國家之間的概念關聯強度是表明國家之間的交互作用還是相似性,對20個國家相互之間的關聯強度與它們間的交互作用和相似度分別進行了相關性分析。各國之間的交互作用是根據從Chatham House收集到的2004—2014年10年間各國之間的進出口量(貿易量)計算的。這些進出口量和從The World Bank收集的各國人口、土地面積和人均國內生產總值的平均值被視為各國的特征,形成每個國家的特征向量。歸一化后,通過計算20個特征向量兩兩之間的余弦相似度,得到20個國家兩兩之間的相似度。

1.2.4 探索分析

為了進一步探索本文方法的潛力,且由于Cha?tham House和The World Bank上的數據時間上限為2017年,本文還計算了2005—2015年、2006—2016年、2007—2017年這20個國家兩兩之間的交互作用和相似度,并將其與本文方法所得的國家間的關聯強度(2004—2014年)進行皮爾遜相關性分析。

2 研究結果

實驗得到了20個國家兩兩之間的貿易交互作用和相似度。表1為皮爾遜相關性分析結果。4種概念關聯強度指標與國家間貿易交互強度的皮爾遜相關分析的P值均小于0.01,具有統計學意義,且皮爾遜相關系數均在0.7左右,相關性較好。而這4種概念關聯強度指標與國家間相似度的相關系數要低得多,均小于0.2。這表明用Flickr用戶標簽數據計算出的國家間關聯強度與國家間貿易交互強度是顯著相關的,關系較為密切;而國家間關聯強度與國家間的社會經濟相似度間的相關性則要小得多,幾乎沒什么關聯。4個指標中,SWE?TF?IDF關聯強度與各國之間的貿易交互強度(2004—2014年)之間的相關性最強。

表1 皮爾遜相關性分析結果(2004—2014年)Tab.1 Pearson Correlation Coefficients(2004—2014)

通過相關性分析得到了國家間4種概念關聯強度與2005—2015年、2006—2016年、2007—2017年國家間貿易交互強度和相似度之間的皮爾遜相關系數。國家間貿易交互強度與4種概念關聯強度之間的相關系數均大于0.69,如圖1(a)所示;而國家間的4種概念關聯強度與2005—2015年、2006—2016年、2007—2017年各國間相似度之間的皮爾遜相關系數均小于0.18,見圖1(b)。進一步說明了研究得到的國家間的概念關聯強度更能代表國家間的貿易交互強度。圖1(a)還表明,國家間概念關聯強度與2005—2015年、2006—2016年、2007—2017年的國家間貿易交互作用之間的皮爾遜相關系數均高于其與2004—2014年間的國家間貿易交互作用之間的相關系數,且時間越往后移,相關系數越大。這表明,由Flickr用戶標簽數據計算得到的區域間概念關聯強度更能準確地反映在該數據時間范圍之后的區域間貿易交互強度,這意味著本文方法可能具有預測國家之間貿易量的潛力。由圖1(a)可知,在這4個指標中,SWE?TF?IDF指標所得的國家間關聯強度能最好地表示國家間的貿易交互強度。

圖1 相關性分析結果Fig.1 Correlation Analysis Results

3 結束語

本文以數百萬Flickr用戶上傳的照片中的標簽和位置數據為基礎,提出了一種標簽共現的區域聯系分析方法,用4種指標計算出了世界各地之間的概念關聯強度。對結果進行相關性分析發現,基于Flickr用戶感知的各種空間關聯性分析指標都能很好地表示樣本國之間的貿易交互強度,并且能更好地表示未來的貿易交互強度,這表明用戶感知的空間關聯強度對國家間的貿易交互強度有一種導向作用。這也許反映了“第一空間”和“第二空間”不是孤立存在的,在社會歷史領域中,“第二空間”總是控制著“第一空間”,即想象的空間控制著具體的(真實的)空間[15]。

與以往試圖揭示區域間相互作用強度的研究相比,本文方法是一種新的低成本方法,采用的是集體主觀方法,可以避免任意參數化過程,且使用的數據是由分布在世界各地的數百萬Flickr用戶提供的,故得到的結果更全面。本文方法在缺乏傳統社會經濟統計數據的情況下尤其有用,且具有很大潛力。為便于同國家的貿易數據進行比較,本文方法僅在國家層面上實現了應用,但只要用戶標簽數據足夠,該方法就可以在任何空間尺度上得到應用。此外,該方法對進出口公司、期貨公司、保險公司等都有利用價值,也可以幫助制定國家或地區的社會經濟政策。在后續研究中,仍要不斷改進,希望在未來能有新發現。

猜你喜歡
關聯性關聯強度
基于單元視角的關聯性閱讀教學策略淺探
學貫中西(4):AI的時序性推論技能
燃氣熱水器性能與關鍵結構參數關聯性分析
“一帶一路”遞進,關聯民生更緊
奇趣搭配
智趣
計算電場強度常用的幾種方法
電場強度疊加問題的求解
電場強度單個表達的比較
求電場強度的新方法お
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合