?

基于Hadoop的舌部圖像預處理時間對比研究

2016-12-19 12:52崔巖
計算機時代 2016年11期
關鍵詞:單機對比

崔巖

摘 要: 為了對比單機系統和基于Hadoop系統的舌部圖像預處理所用時間,從天津南開醫院體檢中心采集了1482例標準化舌部圖像。使用雙Worker、四Worker的Hadoop系統與單機系統對這些圖像進行預處理。三種系統下運行預處理各5次,對處理時間取平均值并對比。實驗結果,表明雙Worker系統所用時間與單機系統相比縮短到了52.1%,四Worker系統縮短到了28.1%。相對于并行計算機,基于Hadoop多Worker的舌部圖像預處理系統利用現有計算機和網絡資源,在幾乎不增加成本的情況下有效地縮短了預處理時間。

關鍵詞: 舌; 圖像預處理; Hadoop; 單機; 對比

中圖分類號:TP317.4 文獻標志碼:A 文章編號:1006-8228(2016)11-54-03

A comparative study of the tongue image preprocessing time based on Hadoop system

Cui Yan

(Department of Common Required Courses, Tianjin University of Traditional Chinese Medicine, Tianjin 300193, China)

Abstract: In order to compare the tongue image preprocessing time of the single machine system and the Hadoop based system, 1482 cases of standardized tongue image are collected from the medical examination center of Tianjin Nankai hospital. These images are pre-processed by a single PC, a two-worker and a four-worker Hadoop system respectively. Three kinds of system run the preprocessing for 5 times each, average the processing time of each system then contrast. Experimental results show that the two-worker system is reduced to 52.1% compared with the single machine system, and the four-worker system is reduced to 28.1%. Compared to parallel computer, using the existing computer and network resources, the tongue image preprocessing system based on multi-worker Hadoop can effectively shorten the preprocessing time while the costs are not significantly increased.

Key words: tongue; image pre-processing; Hadoop; single machine; contrast

0 引言

舌診是中醫重要的診斷。醫生觀察病人舌部的顏色、紋理等特征,然后依據這些特征給出辨證、健康辨識或者診斷結果。但是實驗表明,舌診有一致性差的缺點[1]?;谏嗖繄D像的診斷客觀化,是克服這一缺點的主要研究方法。已有多項研究以舌部圖像為對象,總結了舌部圖像的顏色、紋理等全局特征以及像素等局部特征對舌診的影響[2]。也有研究采用介于像素特征和全局特征之間的Haar-Like特征研究舌部圖像與疾病診斷、健康辨識等的關系[3-4]。這些研究都需要對舌部圖像進行預處理。作為圖像研究中的第一步,預處理擔負著圖像剪裁、坐標對齊、去除噪聲等任務,并為后續研究步驟做好準備。

隨著基于舌部圖像的中醫診斷客觀化研究水平的提高,此類研究包含的樣本量目前已經提高到了數千幅圖像。如何對大量圖像預處理,成為中醫舌診研究中第一道難題。并行機的應用雖然可以提高處理效率,但是其造價昂貴,使用成本高,無法大規模使用。Hadoop技術的提出和使用,在某些并行性很強的問題中,可以使用個人計算機的堆疊成倍提高計算效率,同時又不需要額外的資源。目前已有研究使用Hadoop技術專門用于數據預處理[5-6]。本文使用自行配置的Hadoop系統和單機系統,對同樣的圖像集進行預處理,并比較兩者所耗費的時間。通過實驗驗證Hadoop技術的對舌部圖像預處理效率的提升效果。

1 材料與方法

為了完成實驗,從2015年9月7日起,到2016年5月26日止,使用改進型的YM-III舌診儀從天津市南開醫院采集了有效的舌部圖像共1482例。

系統硬件采用5臺DELL 7020臺式計算機,每臺均配置i5-4590處理器、4G內存。其中四臺作為Worker節點使用的設備配備500G硬盤,一臺作為Master節點使用的配備1T硬盤。通過現有的D-Link DES-3624百兆交換機連接。

軟件環境采用Ubuntu14.04操作系統,安裝openJDK 1.7.0。Hadoop作為一個免費的編程環境,文檔齊全而且開發接口繁多,非常適合研究和小規模應用。Hadoop 2.7.0作為較新的版本,穩定性已經得到驗證,結合R語言2.15.3版本,使用自行編寫的代碼對圖像進行預處理[7]。該預處理算法包括欠采樣、增加對比度、模式串匹配、圖塊提取等四個步驟,將結果直接存儲于配置好的每臺機器自身的文件系統中。Master節點的R語言環境還用于數據統計分析。

首先采用單機系統測試,記錄數據處理所需時間。單機測試中不使用Hadoop環境。然后分別配置兩臺Worker節點、四臺Worker節點的Hadoop環境,分別完成預處理,記錄運行時間。由于預處理算法是在先期研究中驗證過的算法,將其應用于Hadoop環境時,并未采用rHadoop等r語言和Hadoop等接口,而是直接使用Hadoop環境在shell下運行R語言環境中的腳本。為了減少網絡延遲等環境因素導致的時間延長,實驗前將所有圖像復制到所有節點,實驗中按順序分配各節點需要預處理的圖像。雙Worker時,第一臺Worker僅處理前741幅圖像,第二臺處理另外741幅。四Worker時,四臺Worker節點按圖片編號順序分別同時開始處理371、371、370和370幅圖像。預處理后的圖像也存儲于各節點內而不集中。為了考察測試結果的穩定性,每種情況運行五次,時間記錄為:平均值±標準差。

2 結果與討論

2.1 預處理效果

因為所有系統使用同樣算法,所以均順利完成了預處理,結果示例見圖1。圖1(左)為原始圖像,高2848像素,寬4272像素。圖1(右上)為24色色塊,每塊高寬均為140像素。圖1(右下)為舌部圖像,寬1400像素,高1812像素。用于圖像預處理的算法已經在先期研究中驗證理效果。與原始圖像包含12166656像素相比,處理后的舌部圖像僅剩余2536800像素。在保證圖像質量不變的情況下,像素數減少為原圖像的20.9%。這將大大提高后續工作的效率。

2.2 時間對比

在實際實驗中,單機運行實驗中為了提高效率,使用五臺計算機同時分別運行,其他實驗均重復運行五次。實驗結果記錄如表1??梢婋SWorker數量的增加,預處理所用時間顯著減少。其中使用雙Worker時,五次實驗平均時間從單機的89504.200±769.089秒減少到46589.400±187.820秒,使用四Worker時,進一步減少到25169.000±59.766秒。

2.3 討論

在保證預處理質量的前提下,時間對比驗證了使用Hadoop技術可以有效縮短圖像預處理的時間,結果對比如圖2所示。相對于單機實驗,雙Worker所耗時間縮短到了52.1%,使用四Worker時,時間進一步縮短到了28.1%。近些年,隨著中醫舌診客觀化相關研究的深入,采集的圖像包含像素數快速增加。同時,高質量的研究又需要大量的樣本圖像。Hadoop技術可以充分利用現有的單機系統和網絡等資源,在不增加成本的情況下,成倍的提高工作效率。

在本研究中,圖像之間的預處理工作沒有串行關系,Hadoop非常適用于這種場景。因此,即使在網絡延遲、shell環境啟動等影響下,工作效率仍成倍提高。使用單機環境時,總處理時間超過24小時。而使用四Worker環境時,總時間約為6.99小時。當數據量進一步增大時,可以輕易的在系統中加入成百上千的Worker節點繼續提高處理效率。本研究中的樣本在未來的研究中,可以使用Java或者Python等語言,在Hadoop環境下重寫預處理算法,進一步提高效率。

3 結束語

經過對比,基于Hadoop的多Worker系統在使用相同算法的情況下,保持了舌部圖像預處理的效果不變。與此同時,預處理時間幾乎成倍降低。隨著大數據時代的來臨,目前與中醫相關的圖像處理問題研究面臨著數據量的暴增,單機無法處理的問題。為此,本研究初次嘗試了在相關研究中使用Hadoop技術。但是,本研究因為受到條件限制,僅采用了效率較低語言,也沒有利用Hadoop中分布式文件系統以及各種編程環境。因此,單幅圖像處理時間較長,總體效率仍舊較低。這些都是在進一步的研究中需要改進的方面??傮w上講,Hadoop有著成本低,擴展性強,編程環境成熟等優點,只要稍加改進,即可完成后續研究中的特征提取、選擇等工作。

參考文獻(References):

[1] 李曉彥,溫澤淮,梁偉雄等.評測中醫臨床醫生觀察舌象及脈

象一致性的研究[J].中西醫結合學報,2010.8(12):1153-1158

[2] X. Wang, B. Zhang and Z. Yang et al., Statistical analysis

of tongue images for feature extraction and diagnostics[J].IEEE Transactions on Image Processing,2013.22(12):5336-5347

[3] Y. Cui, S. Liao, and H. Wang, ROC-Boosting: A Feature

Selection Method for Health Identification Using Tongue Image[J]. Computational and Mathematical Methods in Medicine,2015:362806

[4] Y. Cui, S. Liao and H. Wang et al., Relationship between

Hyperuricemia and Haar-Like Features on Tongue Images[J]. BioMed Research International,2015:363216

[5] 宋瑩,沈奇威,王晶.基于Hadoop的Web日志預處理的設計

與實現[J].電信工程技術與標準化,2011.24(11):84-89

[6] 劉君.激光解析蛋白質數據結合Hadoop的預處理方法[J].激

光雜志,2015.36(7):121-123

[7] R Core Team, R: A Language and Environment for

Statistical Computing[Z].Australia:R Core Team,2012.

猜你喜歡
單機對比
熱連軋單機架粗軋機中間坯側彎廢鋼成因及對策
宇航通用單機訂單式管理模式構建與實踐
中日兩國膠囊旅館業的發展對比及前景展望
克里斯托弗·馬洛與陶淵明田園詩的對比
英國電影中“憤青”與“暴青”對比研究
筑路機械單機核算的思考與研究
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合