?

基于K-means的駕駛行為離散化特征聚類分析與研究

2024-04-14 02:12宋月亭盧巍
現代信息科技 2024年2期
關鍵詞:特征分析聚類

宋月亭 盧巍

DOI:10.19850/j.cnki.2096-4706.2024.02.005

收稿日期:2023-05-26

摘? 要:為挖掘連續駕駛行為數據中潛在的特征關系,文章采用實際運輸車輛連續的駕駛行為數據。首先通過相應的預處理和特征提取,獲取對應車輛在相應時間段連續的駕駛行為數據;其次采用在離散標準數據集和連續且有噪聲數據集中均有穩定表現的K-means聚類方法,對駕駛行為數據進行離散化聚類處理與分析;最后獲得三類有代表性的駕駛行為:“平穩型駕駛”“沖動型駕駛”和“危險型駕駛”。此外,對駕駛行為中隱含的各類特征進行分析研究,為后續進一步根據駕駛行為數據進行數據挖掘之關聯分析提供有力依據。

關鍵詞:駕駛行為;聚類;離散化;特征分析

中圖分類號:TP391? 文獻標識碼:A? 文章編號:2096-4706(2024)02-0017-04

Clustering Analysis and Research on Discretization Characteristics of Driving Behavior Based on K-means

SONG Yueting, LU Wei

(School of Information Engineering, The College of Arts and Sciences Kunming, Kunming? 650221, China)

Abstract: To explore potential feature relationships in continuous driving behavior data, this paper collects continuous driving behavior data of actual transportation vehicles. Firstly, through corresponding preprocessing and feature extraction, obtain continuous driving behavior data of the corresponding vehicle during the corresponding time period; secondly, the K-means clustering method, which has stable performance in both discrete standard datasets and continuous noisy datasets, is used to make discretization clustering processing and analysis on driving behavior data; finally, three representative driving behaviors are obtained:“Steady Driving”“Impulsive Driving”“Dangerous Driving”. In addition, analyzing and studying the various hidden features in driving behavior provides a strong basis for further correlation analysis in data mining based on driving behavior data.

Keywords: driving behavior; clustering; discretization; characteristics analysis

0? 引? 言

隨著經濟與工業生產的蓬勃發展,以及人們日益增長的物質生活需求,我國汽車保有量、汽車駕駛員人數呈逐年穩步增長趨勢。與此同時,駕駛量的增加帶來了交通阻塞和環境污染,也使得近年來我國車禍數量明顯增加[1]。隨著交通部門管控措施的加強以及國民素質的不斷提升,交通事故發生率得到了一定程度的控制,但駕駛安全問題仍不容小覷。大部分交通事故的發生是由于駕駛員未能在駕駛過程中遵守交通規則,進行了如疲勞駕駛、超速駕駛等不良的駕駛行為操作[2]。同時駕駛員的不良駕駛習慣,如急加速、急減速、急剎車、隨意變道等,也為避讓不及造成追尾事故埋下隱患。因此,根據實際駕駛中采集到的數據,分析駕駛員行車過程中隱含的各類駕駛行為特征以及其體現的相關關系,成為研究安全駕駛的重要內容。

由于車載數據獲取主要通過車輛傳感器進行收集,因此在對獲取到的車載數據進行分析時,除了需要對基礎數據進行相應的處理和標準化外,還需要考慮到,此類數據是基于駕駛員行駛過程中每間隔一秒進行一次數據采集,致使大量數據形成連續的行車軌跡數據。因此,本文首先對大量的駕駛行為數據進行預處理和特征提取,進而針對連續的駕駛行為數據進行基于聚類分析的離散化處理,并通過聚類對不同駕駛行特征為進行安全性能分簇,最終形成三種駕駛行為特征。

1? 駕駛行為數據特征處理

本文采用泰迪杯數據挖掘大賽中提供的部分運輸車輛駕駛行為數據作為實驗數據,選取了其中40輛車2018年7月30日至2018年10月10日的原始駕駛數據,數據主要涉及每輛間隔1秒時間下的轉向角度、經緯度、轉向燈情況、手剎腳剎情況、GPS速度和里程等,如表1所示。

首先,由于可能存在傳感器定位偏移、數據精度缺失、數據傳輸故障等問題,需要將原始數據進行預處理。針對數據傳輸故障等導致的缺失數據,結合前后時間點數據進行均值填充;針對數據傳輸故障等情況,對重復時間或重復設備號數據進行刪除;同時對明顯的速度異常、轉向角度異常、里程異常等情況進行分析修正,對于較短時間片段內的異常,利用前后時間點下的均值進行替換,對于超過一定時間段(5 s以上)的異常值,進行刪除;同時,對手剎和腳剎狀態進行數據區分,以便區分該剎車行為致使車輛處于停止狀態還是減速行駛狀態。

然后,由于僅含有車輛對應時刻行駛狀態,因此需要對上述異常數據進行分析,獲取車輛在兩次停止狀態間,相應時間片段內的急加速、急減速、剎車、疲勞駕駛、平均車速、最高車速等駕駛行為特征數據。查閱相關資料,并參照行業經驗,設定對應時間片段內,當a>3 m/s2,且其時間域在0<t<3 s時為急加速;當a≤-3 m/s2,且其時間域在0<t<3 s時為急減速;當a<-4 m/s2,且使得3 s后v<0.5 m/s時為急剎車;當連續駕駛時間Twork>4 h且休息時間Trest<20 min,或一天累計駕駛時間T>8 h時為疲勞駕駛[3]。

最終獲得具備相應駕駛行為特征的連續駕駛行為片段,如表2所示。

2? K-means聚類算法及其離散化檢驗

常用的數據離散化方法有等寬法、等頻法。等寬法通過劃分相同寬度的區間對連續數據進行劃分,簡單直觀,但對數據分布要求較高,各類別下數目容易不均。相較于等寬法,等頻法避免了類分布不均勻的問題,但同時也有可能將兩個非常接近的數值劃分到不同的區間,以滿足等頻對每個區間數據個數的要求。相較于上述兩種方法,在對連續數據進行離散化轉換時,可以通過聚類算法將連續變量進行聚類劃分處理,根據聚類結果將某一類連續屬性值表述為其潛在的某種特征類型。連續數據的離散化過程主要包括確定離散區間準則和將數據屬性按照一定規則劃分[4]。由于K-means聚類算法基于數據間距進行分析,綜合考慮了各連續數據點的鄰近性,因此K-means聚類算法在解決連續數據離散化中有較為不錯的表現[5]。簡單易懂、時間復雜度低的K-means算法為數據離散化提供了極高的計算效率。該算法具體步驟如下:

輸入:K個聚類簇數目;D:包含有n個對象的數據集。

輸出:K個簇的集合及類編號。

1)隨機選取D中K個樣本作為初始聚類中心。

2)計算每個樣本與初始聚類中心間的距離并根據距離分配相應的聚類簇。

3)移動聚類中心,選定新的聚類中心為聚類簇重心。

4)重復步驟2),直至目標函數最優E值最小且不再發生變化,則算法結束。

其中,樣本間的距離計算采用歐氏距離,其計算公式如下:

(1)

聚類中心計算公式如下:

(2)

目標函數最優E值計算公式如下:

(3)

為檢驗該算法針對不同數據聚類性能,本文利用數據集對K-means算法進行分析與評估,選取人工合成連續化數據集R15[6]和標準數據集Seeds,其中R15數據集包含2個維度、15種類別的600份樣本,并含有橋接噪聲或隨機噪聲;Seeds數據集包含7個維度,3種類別的210份樣本。評價指標本文選取準確度ACC(Clustering Accuracy),具體為:

(4)

其中,yi為第i簇中聚類正確的數據點個數,準確度取值范圍在0到1之間,值越大表示聚類結果越準確[7]。

由于K-means聚類算法每次隨著聚類中心選取不同,對結果會產生一定波動[8-10]。為避免實驗結果的偶然性,提高實驗準確性,本文選擇在每個數據集上運行20次,取每次聚類結果評價指標ACC的平均值作為最終結果。實驗結果如表3所示。

根據上述實驗結果可以看出,K-means算法對數據標準且離散化的數據集以及包含噪聲數據且連續化的數據集均能有效果不錯的、穩定的準確率。說明該方法針對駕駛行為這類連續化且存在噪聲的海量數據,進行離散化處理并根據聚類效果分析不同類別下的隱性特征是有效可行的。

3? 駕駛行為離散化特征聚類分析

上述實驗已經檢驗了K-means聚類算法對連續化數據的穩定聚類性能,因此,將處理后的駕駛行為特征數據帶入進行操作及分析。首先結合輪廓系數確定該駕駛行為數據集的最佳聚類簇數。輪廓系數是評價聚類效果好壞的一種簡單評價方式,假設有一點i,記i向量到其所屬的簇中的其他所有點的平均值為ai,i向量到某一不包含該點的簇中的所有點的平均距離的最小值為bi,可將i向量輪廓系數表示為:

(5)

輪廓系數取值范圍在-1到1之間,值越趨近于1表示內聚度和分離度都越好。將所有點的輪廓系數求平均值,就是該數據集聚類結果的總體輪廓系數。

將不同聚類簇數在駕駛行為特征數據集上進行聚類,根據其輪廓系數結果可以看出,當聚類簇數為3時,輪廓系數最大,如圖1所示,表明針對該駕駛行為數據集最佳聚類簇數為3。

因此將該駕駛行為數據集聚類簇數設定為3,采用平均速度、最高速度、急加速、急減速、急剎車、疲勞駕駛作為特征項,采用K-means算法進行離散化聚類分析。為避免聚類中心點的選取對實驗結果帶來的偶然性,提高實驗準確性,本文在該駕駛行為數據集中運行20次,將每次運行結果的聚類中心數據取平均值,作為最終的聚類中心結果。離散化聚類處理效果如圖2所示,為呈現聚類效果,僅利用平均速度和最大速度進行繪圖,但在聚類劃分過程中選取的特征數據為前文處理后獲得的6個特征項。

因此,基于K-means算法對駕駛行為進行特征離散化聚類,形成3類安全性能駕駛行為分簇。各類數據簇的聚類中心點結果如表4所示。根據其數據特征,本文將其概括為平穩型駕駛、沖動型駕駛和危險型駕駛。

根據表中聚類中心點特征數據來看,第一類整體車速都相對緩和平穩,沒有過多的急加速、急減速和急剎車,同時不存在疲勞駕駛這項危險駕駛行為,可將此類駕駛行為歸為“平穩型駕駛”;第二類車速相對第一類有一定的提高,相對還算穩定,和前一類別相比,在急加速、急減速和急剎車方面次數有明顯增多,說明此類駕駛行為在行車過程中,駕駛人員經常習慣性猛踩剎車急?;蛎筒扔烷T加速,盡管最高速度在正常限速范圍下,此類行為在某些情況下有可能釀成交通事故,同時在該類別中,有少量駕駛人員存在一定的疲勞駕駛情況,可將此類駕駛行為歸為“沖動型駕駛”;第三類整體車速過快,平均車速較高,同時急加速、急剎車等情況最多,在反復的猛踩油門加速過程中,使得中心點最高車速較為接近路段限速范圍。同時在該類別中,普遍存在疲勞駕駛的情況且次數較多,另外根據具體數據樣本,還監測到有數次超速情況發生。此類疲勞駕駛、超速行駛等危險駕駛行為是導致交通事故發生的重要因素,由此可將此類駕駛行為歸為“危險型駕駛”。

4? 結? 論

本文針對駕駛行為的連續化原始數據,通過相應的數據預處理對駕駛行為特征進行提取,結合K-means聚類方法,對駕駛行為數據集進行離散化聚類處理與分析,最終在該數據集上獲得三類代表性駕駛行為歸類。根據每個類別中心點特征和該類別下數據樣本特征,對其相應的駕駛行為特征數據進行分析,挖掘駕駛行為下的隱性特征,分別將其三個類別歸為“平穩型駕駛”“沖動型駕駛”和“危險型駕駛”。根據駕駛數據可以看出,“平穩型駕駛”體現了大部分防御性駕駛人員的駕駛行為習慣,整體駕駛較為緩和平穩;“沖動型駕駛”體現了當下很多情緒急躁駕駛人員的行車習慣,盡管車速不算太快,但是習慣性猛踩油門或猛踩剎車,容易造成追尾,存在一定的安全隱患;“危險型駕駛”體現了一些存在“路怒癥”或是對自己極度自信的駕駛人員的行車習慣,由于存在疲勞駕駛和超速行駛等危險行為,極易發生交通事故。因此,可以看出本文通過基于K-means的駕駛行為離散化特征分析,根據實際行車數據有效地進行了不同代表性駕駛行為的劃分,為后續進一步根據駕駛行為數據進行關聯分析數據挖掘提供了依據。

參考文獻:

[1] 王萬豐.我國道路交通安全事故統計分析 [J].中國安全生產,2020,15(3):52-53.

[2] XING Y,LYU C,WANG H J,et al. Driver Activity Recognition for Intelligent Vehicles: A Deep Learning Approach [J].IEEE Transactions on Vehicular Technology,2019,68(6):5379-5390.

[3] 廖紀勇.基于聚類和關聯規則的駕駛行為分析與研究 [D].昆明:昆明理工大學,2021.

[4] 孫吉貴,劉杰,趙連宇.聚類算法研究 [J].軟件學報,2008,19(1):48-61.

[5] 張良均,楊坦,肖剛,等.MATLAB數據分析與挖掘實戰 [M].北京:機械工業出版社,2015.

[6] 于彥偉,賈召飛,曹磊,等.面向位置大數據的快速密度聚類算法 [J].軟件學報,2018,29(8):2470-2484.

[7] NIE F P,WANG C L,LI X L. K-Multiple-Means: A Multiple-Means Clustering Method with Specified K Clusters [C]//Proceedings of the 25th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining.Anchorage:ACM Press,2019:959-967.

[8] 江文奇,黃容,牟華偉,等.面向大規模數據精簡的聚類中心點優化和FCM算法設計 [J].數學的實踐與認識,2021,51(17):144-151.

[9] 羅興隆,賀興時,楊新社.二分k-means錨點提取的快速譜聚類 [J].計算機工程與應用.2023,59(16):74-81.

[10] 姜子超.基于禿鷹搜索算法優化K-Means的動態特征子集聚類研究 [D].哈爾濱:東北林業大學,2022.

作者簡介:宋月亭(1995.10—),女,漢族,山東濟寧人,助教,碩士,主要研究方向:人工智能與數據挖掘。

猜你喜歡
特征分析聚類
泡罩包裝揮發性有機物排放特征分析
基于DBSACN聚類算法的XML文檔聚類
2012 年南海夏季風特征分析
條紋顏色分離與聚類
基于Spark平臺的K-means聚類算法改進及并行化實現
基于改進的遺傳算法的模糊聚類算法
基于PowerPC的脈內特征分析算法的工程實現
腎康注射液不良反應特征分析
一種層次初始的聚類個數自適應的聚類方法研究
不良汽車駕駛行為特征分析
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合