?

關聯用戶駕駛的整車道路試驗大數據分析系統

2023-05-22 11:11陸林熊珂
時代汽車 2023年9期
關鍵詞:大數據

陸林 熊珂

摘 要:為了在競爭日益激烈的汽車市場上取得成功,汽車制造商必須高度響應消費者的需求,并進一步加快新樣車的設計驗證周期。通過收集網聯車輛的用戶駕駛數據,促進數據驅動的試驗認證,可以滿足客戶不同駕駛習慣的需求,但測試工程師面臨著利用用戶駕駛大數據的挑戰。這促使一個專門的道路試驗大數據分析系統的提出,為工程師獲得對關聯用戶駕駛的整車道路實驗提供有效途徑。該系統不僅屏蔽了工程師操縱大數據的技術障礙,而且還幫助他們通過有指導的數據科學過程挖掘有價值的信息。該系統已被一些汽車工程師實際用于他們的道路試驗用例,肯定了其靈活即用的功能和令人印象深刻的效率。

關鍵詞:道路試驗 大數據 用戶關聯

1 引言

整車道路試驗(Vehicle Road Test, VRT)[1]是指在公共/測試道路上進行一定強度的預生產車輛駕駛操作,以評估車輛的設計功能和性能。VRT與仿真測試相比,具有更強的客觀優勢,通常被認為是原型車輛距離交付市場階段的“最后一公里”。未關聯用戶的VRT可能導致某些子系統的過度設計或者欠設計[2]。這是由于消費者對主機廠過去售出車輛的使用信息未能有效向車輛研發與測試工程師反饋的結果。故朱佳琦[3]提出了基于用戶使用數據分析的整車道路試驗優化方案,江毓等人[4]提出了一種關聯用戶使用情況的相對合理的試驗場整車耐久性試驗方案。用戶關聯的VRT可用于測試認證規范的制定,以發現和消除潛在的設計缺陷,從而減少售后索賠和召回成本。

車聯網[5][6]允許從開放道路上運行的車輛中收集車輛參數,為關聯用戶駕駛提供了數據收集渠道。然而,隨著長期和高頻的數據積累,研發工程師正面臨著處理大數據的挑戰。利用大數據技術可以為汽車行業提供轉型的機會。2014年初,Johanson Mathias等人[7]開發了一個大數據框架,以探索利用汽車大數據進行知識驅動的產品開發。龔蓉軍[8]開發了一個針對道路試驗的數據平臺,使用Hadoop、Hive和Spark工具實現數據收集、存儲、分析和報告展示。然而,當將大數據技術應用于VRT領域時,以往的系統忽略了領域專家的學習成本,導致可用性體驗較差。更糟糕的是,沒有定制的分析組件來整合領域知識并協助業務專家應用到具體的案例級分析。

本文的目標是設計和實現一個大數據科學指導的VRT系統以屏蔽大數據的復雜性,使用戶能夠直觀地探索、分析和可視化數據。如圖1所示,該系統扮演著利用大數據科學指導工程師進行關聯分析的最后一公里的角色,為關聯用戶駕駛的道路試驗分析提供更直觀的信息挖掘過程。

2 系統概述

圖2為該系統的技術架構,其將整個系統分為三層架構:

大數據平臺層。我們選擇了Hadoop、Spark、Oozie用于分布式數據存儲、計算和作業調度。該平臺基于Spark SQL和ML來執行分析操作。Spark的數據源是存儲在HDFS文件系統上的汽車傳感器數據。然后,選擇Oozie工作流調度器來調度特定作業(如Scala Spark程序和Pyspark腳本)。一旦后端服務提交了一個Spark作業,這個作業將立即被發送到相應的Oozie調度器。這個平臺層主要用于探索和分析從全國客戶處收集的大量真實駕駛數據。

混合服務層。中間層是一個混合的Java和Python服務,用于本地和集群計算,實現自動和智能的數據驅動分析。在我們的設計中,提供了兩種后端服務?;赑ython的分析(Python-based Analysis, PA)和基于Java的分析(Java-based Analysis, JA)服務。PA服務可以提交Spark分布式作業,也可以用本地進程服務處理本地數據。這個由Flask提供的本地進程服務結合了pandas和scikit-learn等軟件包,用于提供快速統計或機器學習API。同樣,JA服務也有兩個分支,其本地進程服務在處理其他事務性功能方面具有優勢。在某些情況下,本地數據分析仍然是必要的,測試工程師希望上傳一個本地MDF文件,傾向于更節省時間的本地分析。當分析任務返回時,結果被提交給系統的展示層。這個服務層分別處理來自測試車輛和售出車輛的數據樣本的實時計算任務。

展示層。我們選擇使用一個基于web的用戶界面,其采用了React框架實現,并使用Echart插件來繪制圖表。這個展示層能夠實現豐富的互動操作和選項,以指導數據科學流程。同時,如果定義了一個分析任務,對數據進行的分析類型將被記錄。根據所要求的分析類型,分析任務的結果可以是不同種類的圖表或圖形,通過基于web的用戶界面進行組合并提供給用戶。

3 系統重點實現描述

該系統從業務目標的確定,數據準備,先樣本后總體分析以得出結論,最后以web報告的形式可視化四個主要階段輔助工程師快速利用大數據手段進行業務分析。

3.1 業務目標

VRT分析的一個共同業務目標是在用性能比(In Use Performance Ratio, IUPR)[9]研究,通常包括:(1)發動機怠速時長分析;(2)車速持續時間分析;(3)油門位置From-To分析;(4)油門位置與車速的距離范圍;(5)發動機停機時間分析。這些案例具有強烈的實際意義,都可以通過我們的系統來實現。

3.2 數據準備

該階段將準備一個關于業務目標的目標數據集。首先,測試人員既可以通過JA服務上傳一個本地文件,也可以使用PA服務訪問HDFS文件。無論數據集如何添加,它都被稱為VRT域中的總體。然后,后端服務將啟動一個本地或Spark作業,以獲得關于此總體的摘要以及這個總體的子集。摘要是對數據的統計描述(計數、最小值、平均值等),以及所有信號的缺失值、唯一值情況。先樣本后總體(First Sample Then Population, FSTP)是測試工程師進行IUPR分析的工業經驗。這里的樣本指的就是剛才的子集。

3.2.1 FSTP抽樣策略

對上述大數據的一步步操作是很耗時的,用戶的耐心會隨著時間的推移逐漸耗盡。采樣已被證明是處理大數據問題的一種有效方式。為了使我們的系統更加友好,我們將首先采樣總體數據并將其加載到本地MySQL數據庫中。因為動力學片段是測試工程師重點關注的樣本,我們讓采樣過程中除了均勻隨機的方式外,還選擇幾個動力學片段。提取部分動力學片段被稱為線性采樣。

考慮到要分析的整個數據集,我們假設由均勻和線性抽樣產生的相對較小的比例可以近似于總體的分布。那么,我們對樣本包含不同參數的缺失和異常情況就有更大的把握。這樣一來,對樣本的數據預處理步驟就可以完全復制到總體數據集上,有效避免在樣本上的預處理步驟與總體數據集上的不一致問題。在統計上,樣本分布的大小分別取決于置信水平、誤差范圍,分別表示為α、E。令p表示總體采樣比例,根據公式(1)可計算得到樣本量大小。

其中Zα/2是對應于置信度的Z分數。在VRT背景下,總體的大小總是已知的,如果是100萬,那么計算出的樣本n只有385。這大大提高了FSTP分析過程的效率。

3.3 FSTP分析

一旦數據準備好了,測試人員就可以為特定的用戶群體分析創建一個新的工作臺。相應的分析界面會根據信號的類型進行分類和顯示,然后列出可選的分析組件。測試人員只需點擊相關的分析組件,將需要分析的信號拖到相應的輸入框中,就會立即計算并顯示該組件對樣本數據的分析結果。

可視化方面,我們提供了一些繪圖組件,如直方圖、散點圖、柱狀圖、折線圖和熱圖。它們可以用于不同的情況,例如,直方圖可以用來檢查汽車的速度分布,折線圖可以用來觀察制動狀態的變化,熱圖可以顯示發動機轉速和扭矩的使用規律??梢暬ㄔ诠こ處熆扇萑虝r間內的樣本級分析呈現,和最終總體級別分析結果的呈現。

通過樣本集上分析可視化,工程師可快速決定數據準備和分析邏輯是否是他們所期望的。如果這些操作是它們希望在總體級別上執行的操作,則將啟動一個Spark作業,以分布式的方式進行集群計算。

4 案例研究

在本節中,我們將以某汽車研究院的某個應用為例進行闡述。該系統導入了基于車載T-BOX從市場用戶車輛采集的各種車載傳感器數據。典型的信號包括速度、轉向角速度、里程表、轉速、制動踏板狀態、加速度開啟度等。自2019年以來,該大數據平臺已經存儲了五千多輛汽車的數據。平均每天收集1800萬條記錄,容量為3.6GB,數據總容量為1328GB,其中包括225億條記錄。

在本示例中,工程師A、B和C想要獲得一份關于所有用戶車輛上動力系統極端溫度分布的報告。他們的任務分工為:A進行數據準備和電機的極端溫度分布分析,B負責蓄電池的極端溫度分布,C最后匯報報告。

首先,A選擇2019年7月1日在中國全省運行的所有車輛,并選擇所需的信號,即車輛識別號(VIN)、電機和電池溫度。然后,系統根據用戶的選擇開始數據準備任務,獲得相應數據集上的描述性統計信息。同時,通過提出的采樣策略,獲得采樣數據集并將其存儲在MySQL表中。

上一階段完成后,工程師A可以預覽樣本和相應的描述性統計結果,以檢查是否存在空值或異常情況。如果數據質量不好,則將啟動數據編輯操作。在編輯階段,A可以選擇刪除或填充空值,并過濾掉相關的值。一旦確定,編輯步驟將被記錄并封裝成一系列的Spark操作,這些操作將提交給Oozie進行任務調度。用戶可能需要很長時間來等待大數據平臺才能完成數據編輯階段。數據編輯階段是可重復的,用戶可以重復執行預覽、探索和編輯操作,直到數據質量滿足要求。

接下來,以準備好的樣本數據作為輸入,A和B可以并行完成他們的分析任務。分析工作臺如圖3所示,在我們的系統中,VIN顯示為一個“維度”,因為它的數據類型是字符串;電池和電機溫度信號是數值類型,所以它被分為“指標”欄。為了完成它們的工作,A和B都應該首先選擇要分析的組件,在示例中是一個多維的條形圖。對于電機部件,A將VIN和電機溫度拖動到相應的輸入箱中。通過點擊電池溫度并選擇所提供的匯總方法中的最大選項,將顯示所有車輛的最大電機溫度的直方圖。需要注意的是,這里給出的結果仍然是基于樣本數據集的。如果樣本集上的顯示結果是他們想要的,他們保存這個項目。然后提交一個Spark作業,以對總體執行分析過程。完成后,電機和電池部件的結果圖將共享給C制作最終報告。

通過這份報告,工程師發現用戶駕駛數據中的動力系統溫度分布與零部件供應商提供的溫度分布有所偏差。動力系統溫度是熱管理系統中一些故障的關鍵。因此,研發人員修改了一些相關測試標準的參數。

5 結語

VRT的最終目標不僅是滿足清晰的要求,還要涵蓋用戶的駕駛習慣,提高研發測試認證與實際使用的相關性,從而減少售后問題和召回成本。然而,該行業仍沒有完全整合其用于道路試驗,還有很多工作要做。為了應對測試工程師所面臨的大數據挑戰,我們提出了一個可視化的大分析系統。它是一個自助服務環境,支持整個分析周期——整合、準備、分析和可視化。此外,易于使用的界面和即時建模使業務分析師能夠輕松工作,無需額外的IT協助。它還可以促進測試數據的收集和處理,這些數據可以用來更新整個車輛原型,從而減少現實和模擬測試之間的差距。在未來,我們將嘗試涵蓋更多的商業案例。

參考文獻:

[1]Koopman, P. and Wagner, M., “Challenges in Autonomous Vehicle Testing and Validation,”SAE Int. J. Trans. Safety 4(1):15-24,2016,https://doi.org/10.4271/2016-01-0128.

[2]LI Yu-long,PENG Jian,LI Xin-tian. Failure distribution analysis for vehicle road durability test and customer complaint. Machinery Issue 5,Volume 40 (2013).

[3]朱佳琦.基于用戶使用數據分析的整車道路試驗優化方案[J].上海汽車,2017(03):16-19.

[4]江毓,王驍磊,鄭燕萍,王羽塵.與用戶使用關聯的整車耐久性試驗方案確定[J].時代汽車,2017,No.282(06):81-83+85.

[5]Johanson,M.(2011). Information and communication support for automotive testing and Validation.New Trends and Developments in Automotive System Engineering,473.

[6]趙津,張博,潘霞,謝蓉.車聯網通信技術及應用前景研究[J].時代汽車,2021(06):15-16+32..

[7]Johanson,M.,Belenki,S.,Jalminger,J.,Fant,M.,& Gjertz,M.(2014,October).Big automotive data: Leveraging large volumes of data for knowledge-driven product development. In 2014 IEEE international conference on big data (Big Data)(pp. 736-741).IEEE.

[8]龔蓉軍.基于云計算的轎車道路試驗數據存儲與分析[D]. 上海交通大學,2017.

[9]Guogang,Q.,Nan,X.,& Fan,Y. (2018,July).The In-Use Performance Ratio of China Real World Vehicles and the Verification of Denominator/Numerator Increment Activity Compliance. In International Conference on Frontier Computing(pp. 1821-1828).Springer, Singapore.

猜你喜歡
大數據
基于在線教育的大數據研究
“互聯網+”農產品物流業的大數據策略研究
大數據時代新聞的新變化探究
淺談大數據在出版業的應用
“互聯網+”對傳統圖書出版的影響和推動作用
大數據環境下基于移動客戶端的傳統媒體轉型思路
基于大數據背景下的智慧城市建設研究
數據+輿情:南方報業創新轉型提高服務能力的探索
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合