王大恒 戰勇杰
【摘要】 近年來,我國信息化發展步伐逐漸加快,網絡用戶急速上升。網絡用戶的增加,為更多的電子商業帶來新的機遇。通過對數據的有效分析和利用,進一步促進我過經濟發展。由于數據的膨脹,小型服務器顯然不能完成這項工作,因此,以集群為單位的處理方式被得到廣泛的應有。但是,通過終端采集,數據被不間斷的傳入集群,速度過快時更容易造成集群超負荷工作,而不能就是對數據進行處理;而速度過慢時就會導致集群的作用不能充分的被發揮出來。因此本文對集群性能的監控和優化進行了詳細的闡述,通過優化對集群進行改善。
【關鍵字】 大規模數據出來 集群 監控 優化
一、需求分析
1.1大規模數據處理需求
大規模數據處理具有一定的優勢,并可以實現以下功能:集群部署、數據導入、數據過濾處理。集群部署:即將Hadoop、Spark、和HBase集群分別部署在不同的服務器上。利用其中一臺服務器作為主節點,可以對管理文件進行命名并對客戶端文件進行相關的訪問,同時起到總調度的任務。集群一般是由一臺服務器的主節點和多臺子節點服務器組成,但是收到實驗室的限制,因此只能選擇兩樣服務器進行操作,但是操作原理依然符合上述操作流程,兩臺服務器起到的作用也不同。在集群配置中,首先需要準備的工作就是對網絡環境進行設置和對運行環境進行設置。
1.2集群監控需求
集群監控技術可以更好的滿足對各個節點數據的收集,利用集群監控技術可以將CPU的利用率及系統負載情況進行及時的顯示。最主要的是可以實現數據的實時更新,在更新的過程中主要涉及以下內容:數據獲取的方法、數據傳送給客戶端、將數據轉化為更直觀的曲線數據。
二、設計優化
1、數據處理設計。在原始數據中每一行都包含呼叫用戶和被呼叫用戶,并現實相關的通話時間和呼叫時間。本文數據設計中所需要的數據是指前三項。主要計算根據是用戶的通話時間和次數。1)先對所需要的數據進行初始化設置,并對用戶的通話時間進行統計,將統計后的時間放人PageRank模型中。然后對原始數據進行分析,并對各個號碼建立相關的聯系。通過Map對原始數據進行分析,輸入
2、性能監控。監控的主要原理是通過Hadoop對相關守護進程進行開啟,并注冊相關的Metrics到本地MBeanServer上。在該監控系統中所用到的監控端口包含NameNode的50070端口和DataNode50075端口。而Hadoop本身就自帶監控體系,所以訪問監控端口時不能直接跳回監控數據中,而是跳到相關的jsp頁面。所以,在訪問時可以利用JMX體系,并獲得集群監控中的所有數據,利用這一體系就建立數據進行獲取,不僅可以及時掌握各種信息,同時數據格式也更利于用戶進行處理。監控方法有很多種,本文介紹的方法是通過REST形式對數據進行獲取。利用這種方式,可以對所需數據進行篩選,只選擇自身需要的數據進行了解。
三、實現
1、數據處理。數據處理的過程中,首先要對數據進行過濾,數據過濾中,輸入和輸出文件分別為/cdr/raw和/cdr/ clear。并利用Spark和Mapreduce對數據進行過濾。最后將過濾后數據結果分別存到HDFS和HBase中。在HDFS中,數據經過過濾并進行儲蓄時,其目錄名和字段分割格式和導入時的一樣。通過相關實驗對過濾后的數據進行迭代計算,可以對用戶進行分析,并提取有價值的用戶。
2、監控實現。集群監控中的頁面主要顯示的是集群中的整體情況,并對整體進行分析。其主要內容是對DFS的容量和使用情侶進行分析,并通過反應集群對數據的改變進行實時監控。而節點信息所反映的則是集群中所有的節點基本情況,并通過節點名稱進行相應的點擊,可以對其信息進行查看。而節點中的主要內容則是上述提起的CPU使用情況,在對數據進行繪制時,以折線圖為主,并以每一秒為數據間隔。除此之外,對CUP的使用情況進行評估,在評估的過程其使用變化發生改變時背景色也會發生相應的變化。而在監控中,也可以對集群的整體情況進行相關監控,并對所有CPU數據進行分析和評測,對整體的CPU負載情況進行準確的評估。
四、總結
隨著計算機技術的發展,集群性能體系需要不斷的優化和建立。本文通過對集群性能的監控情況進行分析,并提出了相應的優化辦法,同時也對其監控方向進行闡述。但是收到本文專業和知識的限制,在對其優化的過程中還存在一定的局限性,因此在今后的學習中,會對其優化辦法進行不斷的改善。
參 考 文 獻
[1]王馨曼. 大規模數據處理及集群性能監控與優化[D].大連理工大學,2015.
[2]林文輝. 基于Hadoop的海量網絡數據處理平臺的關鍵技術研究[D].北京郵電大學,2014.
[3]盧興見. 大規模云數據中心負載優化調度方法研究[D].浙江大學,2014.