?

接觸網定位點智能識別方法

2019-02-19 02:43汪海瑛張文軒李向東
中國鐵道科學 2019年1期
關鍵詞:定位點角點接觸網

汪海瑛,周 威,張文軒,李向東

(中國鐵道科學研究院集團有限公司 基礎設施檢測研究所,北京 100081)

根據2015年底發布的TG/GD 124—2015《高速鐵路接觸網運行維修規則》和2017年初發布的TG/GD 116—2017《普速鐵路接觸網運行維修規則》,在接觸網動態運行質量評價過程中,以跨距為鑒定單元對線路質量進行打分。因此,在動態檢測過程中準確地識別出定位點,以劃分出跨距對后續的運行質量評價來說是非常重要的工作。

目前對于定位點的識別按照技術原理可以分為如下幾種:第一種是采用激光測距技術,在檢測過程中連續向垂直車頂方向發射高頻激光脈沖,通過測量距離特征實現識別。意大利的MENMEC公司以及德國DB早期的檢測系統均采用此種方式實現。這種方法處理實時性要求高,在隧道內極易發生誤識別;第二種是采用視頻攝像技術,利用固定拍攝角度的相機獲取線路兩側照片,然后通過光學字符識別等圖像處理技術實現支柱定位和桿號識別。這種方法計算量大,且目前普速鐵路桿號標識不統一,因此不具有通用性;第三種是以實時檢測的接觸網幾何參數[1]為基礎,根據拉出值數據拐點特征進行識別,這種方法不需要額外增加硬件設備,要求的數據量小,計算效率高,但該方法在曲線處較容易出現誤識別。為解決該問題,本文提出一種基于機器學習的定位點識別方法,首先將一定距離內接觸網拉出值檢測數據視為二值圖像,對其進行變換降噪處理后,采用基于滑動矩形的角點檢測方法,初步識別出候選定位點。在提取出其特征屬性向量后,通過已有拉出值檢測數據訓練出的分類模型確定該定位點的有效性。最后通過試驗結果驗證方法的合理性和可行性。

1 拉出值曲線變換降噪處理

與通?;趫D像邊緣特征的檢測對象不同,一定距離內接觸網拉出值檢測數據視為由線路公里標和拉出值組成的二值圖像,則接觸網拉出值曲線可以描述為1條沒有閉合的多態曲線,為

P={Pi=(xi,yi),i=1,…,n}

(1)

式中:P為拉出值曲線;Pi為拉出值曲線上第i個點的坐標;xi為第i個點的橫坐標,與線路公里標相對應;yi為第i個點的縱坐標,與實測的拉出值相對應。

拉出值曲線由n對坐標組成,以曲線上第i個點為中心的輪廓支撐域Ns(Pi)為

Ns(Pi)={Pj|i-s≤j≤i+s}

(2)

式中:s為輪廓支撐域半徑。

接觸線在空間布置上要滿足與行進過程中的受電弓碳滑板均勻接觸的需要,因此在直線區段其被定位裝置拉成“之”字形狀,曲線區段拉成相對受電弓中心行跡的割線,那么拉出值曲線上相鄰點之間的理論拉出值差值為

(3)

式中:yi,i+1為相鄰點拉出值差值;ls為1跨內拉出值的變化量;ds為跨距;Nd為拉出值曲線上單位距離內的采樣點數。

依據接觸網平面設計時在直線和不同半徑曲線線路上拉出值的常用取值[2]及式(3),計算出的yi,i+1可能取值見表1。

表1 相鄰點拉出值差值

由表1可以看出:在典型情況下,yi,i+1取值為1.5~4.0 mm,表明拉出值曲線相鄰點的離散度較大,考慮到跨距的差異、特殊困難地段的布置以及測量誤差,該值有可能進一步擴大。這使拉出值曲線的連通性變差,從而影響角點檢測時輪廓支撐域的選取,因此需要對其做變換降噪處理,以降低接觸線的結構特征對于定位點識別的影響。

通過對拉出值差值進行標準化變換降噪處理后得到的拉出值曲線為

(4)

其中,

式中:P′為變換處理后的拉出值曲線;y′為變換后的拉出值;I為單位值。

通過數據變換降噪處理,拉出值曲線的連通性問題已經解決,而且分類依賴的特征屬性向量值空間也得到壓縮,從而避免了在應用分類算法時泛化能力差和過擬合的問題。

2 候選定位點檢測

角點檢測算法按照處理圖像的類型分為2

類[3-5],一類是基于圖像灰度信息的算法,此類算法通常采用預定義的檢測算子對圖像的每個像素進行計算,并按照閾值選取特征點;另外一類是基于圖像邊緣特征的算法,實際上是先利用邊緣檢測算子對灰度圖像進行處理獲取輪廓后,再根據邊緣曲率或夾角等幾何特征[6-7]進行處理的一種方法。以下研究中采用后一種算法,將一定距離內的接觸網拉出值檢測數據視為已經獲取了輪廓的圖像,再進行處理。

在既有的滑動矩形角點檢測算法中[8],考慮到角點的各向性,檢測過程中需要依據輪廓邊緣的斜率構造矩形,該斜率由左、右各連續4個點位置坐標的均值決定,以保證角點檢測結果的旋轉不變性。由接觸線的布置特性及其已有的檢測數據可知,沿線路行進方向布置的接觸線其拉出值在大部分定位點處都是關于線路中心線的垂線左右對稱,因此可以利用該特性,對原有的滑動矩形檢測算法進行簡化,即忽略拉出值曲線上被測點鄰域內的夾角變化,僅考慮垂直方向上存在的角點,從而構成的滑動矩形檢測示意圖如圖1所示。圖中:Si為實施檢測的滑動矩形;Pci為檢測出的候選定位點,其中Pc1為錯誤定位點,Pc2為正確定位點;L為滑動矩形的長度,與輪廓支撐域半徑相關;b為滑動矩形的寬度,與輪廓支撐域內數據點的拉出值大小相關。

圖1 接觸線拉出值的滑動矩形檢測示意圖

采用滑動矩形角點檢測算法,檢測出的候選定位點集合為

Pc=

(5)

3 定位點智能識別

由式(5)檢測出的是包含錯誤定位點在內的所有候選定位點集合,為最終智能識別正確定位點還需要以下2個步驟。

3.1 特征屬性向量提取

對拉出值曲線進行變換降噪處理的另外一個重要目的是提取適合機器學習算法訓練的候選定位點特征屬性向量,使其既可以很好地刻畫定位點和非定位點的特征,又可以避免由于過擬合導致的分類模型效果不佳問題。

采用候選定位點與其輪廓支撐域內各點拉出值差值的分布描述定位點的特征,可得其特征屬性向量為

vc={a0,a1,…,ak,…,as}ak∈N

(6)

式中:vc為候選定位點的特征屬性向量,該向量的空間大小與輪廓支撐域相關;ak為描繪候選定位點特征的第k個屬性,其與輪廓支撐域內任意一點的變換后拉出值相關;N為自然數。

3.2 分類模型構造

由對拉出值檢測數據的拐點特性分析可知,無論是利用k余弦曲率還是U弦長曲率等方法去逐點計算反映拐點特征的值,最終都需要通過確定1個閾值對是否為定位點進行判定,這種采用絕對單一閾值的方法不僅識別效果不好,而且適應性也不強。因此考慮采用隨機森林算法,它能夠克服基學習器輸出結果不穩定及在訓練數據復雜和存在噪聲的情況下出現過擬合的問題[9-10]。對是否為定位點的判定屬于1個二分類問題,因此可采用決策樹算法作為隨機森林算法的基學習器。

應用隨機森林算法對拉出值檢測數據中定位點信息進行分類,步驟如下:①對已有拉出值檢測數據按照式(4)進行變換降噪后,按照式(6)提取其中定位點的特征屬性向量構成樣本集;②在該樣本集中,隨機抽取一定比例的數據預留作為測試集,以代替交叉驗證;③將樣本集中除測試集外的數據利用有放回抽樣構建訓練集,使訓練集的大小與樣本集相當,且訓練集與測試集沒有交集;④在構造的訓練集中隨機抽取部分屬性并應用SPRINT方法生成決策樹,進行基分類器訓練;⑤根據投票決定最優分類。算法的整個處理流程如圖2所示。

圖2 分類模型算法流程

訓練集的構造依賴式(6)進行,通過對已有的拉出值檢測數據中定位點信息進行抽取,形成供算法實施的樣本集,其中同時包含正、負樣本。隨機森林的構造基于有差異性的樣本集,即在樣本集大小固定的情況下,采用自舉(bootstrap)抽樣方法,對訓練集進行有放回抽樣。同時,參與訓練的屬性也由隨機抽取產生,每次訓練時隨機抽取的屬性個數NA為[11]

(7)

每次基分類器訓練時屬性的隨機抽取,使訓練集之間更加獨立,相關度更低,從而可以顯著地提高分類精度。同時,由于在基分類器的訓練時僅需對特征屬性向量中的部分屬性進行處理,可以減少算法運行時間。

生成決策樹的過程實際上是根據訓練集特征選擇最佳分類指標,并據此對數據集進行迭代處理,直至獲得1個屬性與類別的最佳匹配規則。以信息增益作為指標容易產生多值偏向問題,考慮拉出值數據的分布特性,選擇基尼指數[12]作為節點分裂的指標,為

(8)

式中:T為按照式(6)建立的訓練集,由于該集合中只有定位點和非定位點2種分類,因此它可以描述為1個擁有m=2種類別、nP條記錄的集合;Gs(T)為候選分裂點處的基尼指數;nT1和nT2為訓練集執行分裂后的2個子集中的樣本數;G(T1)和G(T2)分別為分裂后2個子集的基尼指數;Pm1和Pm2為分裂后的子集中定位點和非定位點的概率,可用樣本在集合T中相對頻率的估計值代替。

在定位點分類決策樹的建立過程需要根據選擇的屬性以及屬性值空間逐次計算每種分類后對應的基尼指數,每輪計算完畢后選擇產生最佳指標的結點作為分類依據。

分類錯誤率是一種簡單直接且應用廣泛的分類效果驗證指標,等于分類錯誤的樣本數與樣本總數的比值,分類錯誤意味著其中既包含未識別出的正確定位點,也包括被誤識別的錯誤定位點。因此以該指標判定使用隨機森林算法后的效果。

4 試驗驗證及分析

為驗證本文提出方法的有效性,采用國內某普速線路的接觸網檢測數據進行試驗驗證。

首先需對拉出值曲線進行變換降噪處理,處理前后的對比結果如圖3所示。由圖3可以看出,變換后的曲線在保留拉出值曲線形狀特征的同時,也統一了尺度,這為后面順利實施候選定位點檢測提供了條件。

圖3 拉出值曲線變換前后對比

采用滑動矩形角點檢測算法,檢測出的候選定位點如圖4所示。圖中:在這段由直線過渡到曲線的區段上,用圓圈圈起的部分是正確定位點,小方框圈起的部分是錯誤定位點。由圖4可以看出:由于利用了接觸線的布置特性,所有拐點都可以很容易地被識別出來。但是這種方法還不足以絕對排他性消除同樣符合條件的偽角點即錯誤定位點,因此,需要利用隨機森林算法根據已有拉出值檢測數據將正確角點識別出來。

圖4 滑動矩形定位點識別效果

依據文中方法對定位點樣本進行曲線變換降噪處理后,再按照式(6)提取其中定位點的特征屬性向量構成樣本集。其中部分特征屬性向量與類別見表2。

表2 特征屬性向量與類別對應

表3給出了用SPRINT算法構造出單棵定位點分類決策樹和由決策樹構成的隨機森林分類效果對比,第2~4列代表在構造單棵決策樹時隨機選取的屬性子集,最右側2列分別代表單棵決策樹和由其構成的隨機森林在測試集上分類錯誤率。從表3可以看出:根據分類屬性及樣本集構成的不同,單棵樹的分類效果存在著較大的差異,這種基學習器的不穩定性也是引入隨機森林算法這種集成模型的原因;此外,采用隨機森林的確可以獲得更好的分類結果,而且即使構成森林中的單棵樹分類效果不佳,但并不會影響隨機森林算法總體分類效果。

表3 分類模型效果

圖5 隨機森林采用樹數目與分類錯誤率對應關系

采用隨機森林模型得到的定位點智能識別結果如圖6所示。對比圖4和圖6可以看出:通過采用隨機森林,拉出值曲線初步識別時錯誤定位點得到糾正,同時識別正確的定位點也得到了確認與保留,因此整體識別效果有較為明顯的改善。

圖6 定位點智能識別結果

5 結 語

本文提出一種算法可對接觸網定位點進行智能識別。該方法針對車載接觸網幾何參數檢測系統拉出值數據,從歷史檢測結果中抽取數據建立樣本集,應用隨機森林算法構建分類識別模型,其中基學習器采用SPRINT決策樹算法實現,定位點的判斷標準以投票方式決定。應用該分類模型對通過滑動矩形角點檢測方法識別出的候選定位點進行篩選,得到最終的定位點識別結果。試驗結果表明,該方法可以在保證性能的前提下有較好的定位點識別效果;而且,通過樹模型數量的合適選取,該算法能夠應用于準實時接觸網幾何參數檢測系統中。

猜你喜歡
定位點角點接觸網
基于DS證據理論的室內移動目標RSSI定位算法
BIM技術在電氣化鐵路接觸網中的應用研究
為開通打下基礎!這條國際鐵路完成接觸網平推驗收
多支撐區域模式化融合角點檢測算法仿真
數獨小游戲
中老鐵路兩國同步架設電氣化接觸網第一線
角點檢測技術綜述①
基于接觸網下部材料廠型螺栓的改進研究
基于灰度差預處理的改進Harris角點檢測算法
基于超寬帶TSOA定位原理的掘進機定位誤差分析
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合