?

基于改進K-means 算法的物流配送中心選址研究

2024-03-16 08:37吳秀榮謝貝貝王詩璇梁益銘
物流科技 2024年5期
關鍵詞:物流配送類別聚類

姚 佼,吳秀榮,李 皓,謝貝貝,王詩璇,梁益銘

(1.上海理工大學 管理學院,上海 200093;2.中國鐵路濟南局集團有限公司,山東 濟南 250000)

0 引言

近年來,伴隨著全球經濟的快速發展,電子商務領域空前繁榮,物流業更是被稱為“第三利潤源泉”,2010 年至2020 年間我國快遞行業業務量總量逐年增長,預計2021 年至2025 年,快遞業務量年均增長15.4%,為滿足快遞業務的發展需求,合理的物流配送中心位置顯得尤為重要。

目前國內外對物流配送中心的選址研究主要有:在應急物流選址方面,?zdamar 等提出了自然災難發生后的應急物流和應急物資配置問題,以物資送達時間最短和救治傷患延誤最小建立一種多目標物流選址模型[1]。Mohri 運用ArcGIS 軟件研究了應急物資的配送問題[2]。我國的歐忠文等最先提出應急物流的概念,提出設立應急處理設施和技術平臺的觀念[3];丁雪楓等構建了考慮總成本、公平性和效率性的多目標應急設施選址模型[4]。在生鮮物流選址方面,HE X D 通過闡述生鮮農產品物流的系統節點成員微觀行為與系統宏觀結構演化關系,揭示生鮮農產品物流生態系統演化的復雜性,以此進一步促進生鮮農產品物流生態系統網絡的全面協調和優化,最終提高生鮮農產品物流的整體性能[5]。李晶晶根據生鮮農產品易腐敗的特性,分析了新鮮度降低和打折銷售對顧客的影響,引入新鮮度函數建立滿足需求為前提、總成本最小為目的的冷鏈配送中心選址模型[6]。在逆向物流選址方面,Tadaros 針對鋰離子電池上市時間短但丟棄數量嚴重的現象,以最低的收集成本、運輸成本、處理成本以及建設設施成本之和最小為約束來恰當安排鋰離子電池的選址位置和數量,最終成功解決了廢舊鋰電池的歸屬問題[7]。Guo 分析了政府補貼對消費者、電商企業、電商平臺的作用機制,這在促進快遞包裹回收以及明確不同主體戰略選擇層面的意義非凡[8]。

在物流配送中心選址的方法方面,主要包括定性研究法和定量研究法。其中定性研究法通常采用專家判斷或者多指標評價法來選擇最優方案,如張春玲運用模糊綜合評價法和層次分析法解決了多個備選點最優的問題[9]。定量研究法主要通過數據統計和分析,并使用數學模型對各種選址方案進行模擬分析,常見的方法有多目標規劃方法、聚類算法和遺傳算法。其中聚類算法具有能夠識別數據中的潛在模式和結構,以發現不同地點的相似性和差異性這一特點廣泛應用于選址問題中,Francisco 運用多項式Logit 模型研究了中國大陸跨國企業在德國投資時不同聚集網絡類型的優缺點及選址問題[10]。朱晨陽分析了海南省生鮮農產品物流配送中心和配送中心網絡結構現狀,結合實際引入配送時間滿意度函數,建立了考慮多種因素的多目標模型[11]。徐昊源等基于K-means 聚類方法,以新鮮度損耗成本最小為目標對生鮮自提柜進行選址,并結合建設與運營成本給出最佳的自提柜設置數量[12]。薛德琴等采用模糊綜合評價法和層次分析法針對已經劃分完畢的協同配送區域具體選址確定兩種方案[13]。然而在運用K-means 算法進行聚類選址時,通常需要預先指定聚類數量K,而這個值的選擇通常是基于經驗或試錯來進行的,這會導致算法結果的不確定性和不穩定性,且由于實際的數據大多數是數值型和類別型變量混合,該算法無法對類別型變量進行聚類。

基于上述研究問題,本文主要從K 值確定及數據類型的聚類對K-means 算法進行優化。本文將綜合運用肘部法及輪廓系數確定K-means 算法中的合理K 值;針對無法處理類別型變量的問題,采用變量編碼的方法,將類別型變量轉化為數值型變量,然后再進行聚類。最后基于實際數據,對研究區域的最優物流配送中心位置進行進一步的分析探討。

1 物流配送中心選址影響因素分析與指標體系構建

1.1 影響因素初步獲取

配送中心選址過程中需考慮多種影響因素,本文對2022 年以來的文獻進行梳理總結,將影響因素分為經濟因素、經營環境因素、基礎設施因素、自然因素、運輸物品特點因素和其他因素六大類。對影響因素統計分類后結果如圖1 所示,根據ABC 分類法,對物流配送中心選址的各項影響因素進行分類,具體可分為關鍵因素、一般因素和次要因素三類。通過ABC 分類法,對選址文獻進行綜合考慮,本文選取以下劃分標準對物流配送中心選址影響因素進行分類:累計頻率為0%~80%為關鍵影響因素,80%~90%為一般影響因素,90%~100%為次要因素。

圖1 文獻指標統計圖

由圖1 可知,運輸成本、運營成本、固定成本、需求量、服務滿意度水平、運輸方式、道路可達性和交通設施這8 項因素為關鍵影響因素,經營環境和地形條件為一般影響因素,其余為次要影響因素。本文將以關鍵影響因素為基礎探究選址問題。

1.2 影響指標體系構建

結合數據的可獲得性及影響因素特點,本文將建立物流配送中心選址影響因素指標體系如表1 所示:

表1 物流配送中心選址指標體系表

2 基于改進K-means 算法的物流配送中心選址模型

2.1 K 值確定

K-means 算法中,K 值決定在該聚類算法中所要分配聚類的簇的多少,簇的多少影響著算法的聚類效果。而通常情況下,想確定最佳K 值比較困難,目前常用的確定K 值的方法有肘部法及輪廓系數法。肘部法聚類時使用的評價指標為數據集中所有樣本點到其中心簇的距離之和的平方(SSE),肘部法選擇的并不是誤差平方和最小的K 值,而是誤差平方和突然變小時對應的K 值,因此對于降低速率較為均勻的數據無法確定合適K 值。在此種情況下,輪廓系數法能夠很好地解決該問題。輪廓系數值是常用的聚類效果評價指標,該指標結合內聚度和分離度兩個因素,具體計算過程如下:

(1)假設已經通過聚類算法將數據進行了聚類,并最終得到k 個簇,對于簇中的每個樣本點i,分別計算其輪廓系數,其中需要對每個樣本點i 計算下面兩個指標:

①a(i)為樣本點i 到與其同屬同一個簇的其他樣本點的距離平均值,該值越小,說明該樣本屬于該類的可能性越大。

②b(i)為樣本點i 到其他簇中所有樣本的平均距離的最小值。

(2)該樣本點的輪廓系數為:

對于所有樣本點的輪廓系數的平均值為該聚類結果的總輪廓系數。S(i)∈[-1,1],越接近1 聚類效果越好。

2.2 不同類別變量的處理

本文數值型數據均采取歸一化處理,在影響選址的指標體系中除數值型數據外,還有類似運輸方式等類別型數據,對于該種類型數據的處理本文采取獨熱編碼(One-Hot Encoding)將每個類別值表示為一個二進制向量,轉換為可以處理的連續型數據。該種方法保留了類別信息,不引入任意的數值關系,同時可以避免數值的大小對模型產生不正確的影響。適用于大多數機器學習算法,尤其是那些基于距離度量的算法,如本文的K-means 算法。

獨熱編碼的過程如下:首先,確定類別型特征中的所有不同類別值。然后,對于每個類別值,創建一個維度與類別數量相等的二進制向量。最后,將每個二進制向量的對應維度上的值設置為1,其他維度上的值設置為0。如表1 中運輸類型指標,有鐵路/公路/航空三種運輸方式,通過獨熱編碼的方式可轉化為:鐵路:[1,0,0];公路:[0,1,0];航空:[0,0,1]。原來的類別型特征被轉換為了三個維度的連續型數據,繼而能夠在后續聚類算法中應用。

2.3 物流配送中心選址模型構建

Mac Queen 首次提出了K 均值聚類算法,它是一種非監督學習的硬聚類算法,通過迭代的方式尋找最優的聚類結果。假設已獲取的物流配送中心營業點樣本點有I=(1,2,…,i)個,需要考慮的影響因素具有N=(1,2,…,n)個,對于第i 個樣本點其特征向量可以表示為;聚類中心有K=(1,2,…,k)個,對于第k 個聚類中心其特征向量可以表示樣本在聚類過程中,一個關鍵問題是如何定義樣本之間的相似性度量函數。常見的方法是使用歐氏距離作為度量樣本間距離的方式,歐氏距離是一種常見的距離度量方法,用于計算樣本之間的差異程度。每個簇下樣本點到聚類中心的聚類使用歐式距離表示,歐氏距離的計算公式如下:

依據上述公式,逐個計算每個特征的差值的平方,并對它們進行求和并進行平方根運算,然后計算每對樣本之間的歐氏距離,得到每個元素表示相應樣本之間的歐氏距離。根據歐氏距離結果將數據點分配到最近的聚類中心,然后計算聚類后的各簇內樣本點到聚類中心的歐氏距離和,設定總誤差平方和SSE 為:

對于所有樣本點的總誤差的平方和為該聚類結果的總誤差平方,SSE越小聚類效果越好。除考慮樣本點到該簇聚類中心點距離外,在聚類過程中還需考慮樣本點至其他簇中樣本點的距離,即輪廓系數,具體計算公式如式(1)所示。計算后選取最佳K 值,確定最優聚類方案,運用Matlab 編程后輸出聚類結果。

3 案例分析與驗證

3.1 案例區域選擇

上海市作為中國經濟發展迅速的城市之一,擁有眾多的物流配送中心,選取物流服務業中的順豐速運為代表研究其在上海市的物流配送中心選址問題?;诎俣乳_放平臺與Python 平臺獲取上海市大虹橋商區順豐速運末端營業點目前布局,如圖2 所示。這些物流配送中心分布在城市的不同區域,有的地理位置優越,有的則位于偏遠的郊區。為了更好地管理和優化這些物流配送中心,需要對它們進行聚類分析,并選取合適的聚類中心作為物流配送中心。

圖2 百度地圖上海市大虹橋商區“順豐速運營業點”可視化散點圖

3.2 數據獲取

根據本文研究所需從不同渠道獲得不同類型的數據,本文所需數據如道路等級等來源于百度開放平臺;人口、勞動力成本等數據來自上海市統計局頒布的上海統計年鑒及順豐官網2021 年度報告,基于各末端營業點中的人口數量占總人口的比例計算各營業點人口成本。

3.3 聚類結果與分析

本文使用肘部法和輪廓系數法度量聚類結果如圖3 所示,運用肘部法對該樣本數據進行聚類時,隨著K 值的增大,SSE 值會逐漸降低,但K 值下降速率平緩,無明顯突然下降趨勢,該種方法下無法確定最佳K 值;而輪廓系數法K 值為3 時輪廓系數最大,較為合適。

圖3 聚類結果K 值圖

選取K 為3,對大虹橋商區順豐現有物流配送中心營業點進行聚類,聚類結果如圖4 所示。

圖4 聚類結果圖

上述聚類結果以運輸成本、固定成本以及類別型影響因素為依據,為更好地衡量該方案聚類效果,對比傳統K-means 聚類算法的物流總成本,物流總成本包含運輸成本、運營成本和固定成本。傳統K-means 聚類方法無法對類別型影響因素做出計算,因此在數據輸入時,傳統K-means 算法僅能輸入數值型影響因素特征值,改進K-means 算法能夠同時輸入數值型影響因素與類別型影響因素特征值,結果如表2 所示。

表2 成本對比表 萬元

從中可以看出,傳統K-means 算法聚類結果K 值為4 時,對比改進后考慮類別型因素K 值為3 時物流總成本為34.153 2 萬元,降低8.76%,運營成本降低14.85%,固定成本降低8.09%。由此可知,該方案能夠有效降低物流總成本。

4 結束語

本文在梳理出物流配送中心選址影響因素體系的基礎上,綜合運用肘部法及輪廓系數確定K-means 算法中的合理K 值;針對無法處理類別型變量的問題,采用變量編碼的方法,將類別型變量轉化為數值型變量,然后再進行聚類,確定物流中心的選址。最后基于實際的案例數據,對最優物流配送中心位置進行聚類分析,確定最佳選址。結論如下:

(1)相比較于傳統K-means 算法,本文提出的算法能夠采用熱編碼的方法有效處理類別型數據,獲得更準確的聚類效果。

(2)采用本文算法進行聚類分析的結果顯示,相比較于傳統K-means 算法,本文計算的聚類結果能夠有效降低物流總成本,整體方法可行。

(3)本文在考慮聚類選址時主要考慮了經濟和交通影響因素,對于綜合考慮更多其他要素時,可在本文模型的基礎上進行豐富,其拓展性還可以進行更深入的研究。

猜你喜歡
物流配送類別聚類
山西將打造高效農村快遞物流配送體系
基于Flexsim的飲品物流配送中心仿真優化研究
無人機物流配送路徑及布局優化設計
直企物流配送四步走
基于DBSACN聚類算法的XML文檔聚類
基于高斯混合聚類的陣列干涉SAR三維成像
服務類別
一種層次初始的聚類個數自適應的聚類方法研究
論類別股東會
中醫類別全科醫師培養模式的探討
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合