展輝輝++楊小平
摘 要 該期刊的目的是研究在企業生產環境下大數據架構的相關技術,包括操作系統配置,Cloudera管理器安裝,CDH集群部署和集群參數調優,Kerberos集成,LDAP集成,保護傳輸中的數據安全和保護靜態數據安全.生產環境依賴于AWS云服務。實驗內容:CDH集群部署和集群參數調優;企業級身份驗證系統kerberos;使用一個輕量級目錄訪問協議(LDAP)目錄管理認證;當啟動集群時用TLS/SSL服務器守護程序加載密鑰;簽名證書將被用在CDH集群環境;HDFS加密確保所有敏感數據在存儲在磁盤之前被加密。
【關鍵詞】CDH Kerberos LDAP TLS/SSL 簽名證書 透明hdfs加密 AWS
近年來,隨著社會的高速發展,科技迅速進步,信息流通越來越頻繁,數據量的也呈現為幾何倍的增長。對于如何處理這些巨量的數據,如何從這些數據的礦產中挖掘出金子,成為各個企業日益關注的目標。傳統的大數據計算框架都是搭建在本地計算機上,這樣做的好處是內網環境使得大數據平臺相對安全,但計算機群占地大,硬件升級更換麻煩,隨著各大廠商開發出云計算服務,使得有大數據計算需求的企業不必再局限于場地和計算機的配置,本次實驗就是基于亞馬遜云服務的虛擬計算機?,F如今,企業和大型機構在尋求解決棘手的大數據問題時,往往會使用開源軟件基礎架構Hadoop的服務:提供大數據計算平臺服務的廠商也有很多比較出名的平臺有CDH(Cloudera Distribution Hadoop);openstack;華為等;本文就是基于CDH管理平臺的大數據架構的研究。
1 部署配置
1.1 集群配置
1.1.1 硬件配置
cpu:Intel(R) Xeon(R) CPU E5-
2686 v4 @ 2.30GHz ;Mem :64GB;Disk:1 * 30GB SSD
1 * 500GB HDD
1.1.2 操作系統
Red Hat Enterprise Linux Server release 6.7(Santiago)
1.2 系統配置
(1)禁用防火墻;
(2)禁用SELinux;
(3)禁用THP;
(4)禁用Swap。
1.3 外部軟件和服務
(1)配置 Mysql 數據庫。我們使用AWS RDS作為外部數據庫服務。數據庫類型是MySQL5.5。由于RDS本身具有HA功能,所以沒有額外的步驟來配置HA。
(2)配置必要的數據庫。為相關的CDH組件編寫數據庫。這些數據庫需要UTF-8支持。
(3)配置本地yum源。
1.4 CDH部署
1.4.1 角色安排
如表1所示。
1.4.2 安裝Cloudera Manager
在edgenode001,執行如下指令:
# yum install oracle-j2sdk1.7
# yum install cloudera-manager-daemons cloudera-manager-server
#/usr/share/cmf/schema/scm_prepare_database.sh -h
# service cloudera-scm-server start
1.4.3 部署CDH集群
(1)我們可以訪問Cloudera Manager 網站http://(yourip):7180按照網站導航即可安裝完成;username,password均為admin。
(2)啟用Navigator 數據管理儀表板。
Cloudera Navigator數據管理儀表板能夠捕捉到的各種數據,元數據信息,用戶的工作和數據處理。
(3)HA 部署。
1.HDFS HA 部署
2.YARN HA部署
2 實驗過程
2.1 kerberos服務
(1)安裝kerberos相關安裝包在master節點,編輯相關配置文件:kdc.conf,kadm5.ac,;krb5.conf;初始化KDC數據庫:kdb5_util create -s;開啟KDC服務和kadmin守護進程。
(2) kerberos HA 部署。Kerberos的設計目的是允許主/從復制集群。雖然Kerberos集群可以由任意數量的主機組成,但建議您至少有兩個主機。master作為主服務器和至少一個slave作為master的主備份。主服務器和從服務器可以分別被認為是主服務器和輔助服務。
Kerberos客戶機應用程序設計用于在主服務器關閉時嘗試通過輔助服務器進行身份驗證。因此,在系統故障未能通過Kerberos身份驗證服務到備份服務器時,您不需要做任何額外的工作。但是Kerberos的管理特性不提供自動故障轉移。
(3)Kerberos與Cloudera Manager整合。部署kerberos客戶端在每臺節點上,通過Cloudera Manager控制臺完成操作向導。
2.2 OpenLADP服務
(1)安裝openldap相關安裝包;編輯相關配置文件。
(2)OpenLADP與Hue整合。
(3)OpenLADP與Cloudera Manager整合。
(4)OpenLADP與Cloudera Navigator整合。
(5)OpenLADP HA 部署。
OpenLDAP HA通過LDAP同步復制的實現。除了先前配置的LDAP服務器,它還需要另一個LDAP服務器節點。
2.3 集群加密服務
(1)為Cloudera Manager配置TLS加密服務。
獲得用于Cloudera Manager TLS / SSL證書。
(2)ClouderaManager管理控制臺啟用HTTPS指定服務器密鑰存儲屬性,指定ClouderaManager服務的SSL信任庫特性。
(3)為Cloudera Manager Agents配置TLS加密。
通過配置使Agents使用TLS[5]連接到Cloudera Manager. 確保Cloudera Manager Agents主機能夠驗證服務器的證書和配置群集驗證Agents的證書。
(4)配置CDH服務的加密服務。
為HDFS,YARN和MAPREDUCE配置TLS/SSL;配置HiveServer2和客戶端驅動之間加密通信;為Cloudera Navigator數據管理配置TLS / SSL;為Oozie配置TLS/SSL;為Hue配置TLS/SSL;Spark加密。
3 結論
本文對企業生產環境下部署的大數據處理集群全過程進行了分析,得出以下結論:
(1)使用aws可以根據實際生產情況,隨時調整機器配置靈活性強。
(2)使用CDH大數據處理平臺,功能齊全,穩定。
(3)kerberos通過密鑰系統為客戶機 / 服務器應用程序提供強大的認證服務。
(4)LDAP作為一個統一認證的解決方案,使得對系統中用戶的管理更加快捷高效。
(5)使用TLS/SSL實現應用之間以及客戶端和服務器之間的保密和安全通訊。
(6)對hdfs進行加密使得企業數據的安全性得到了進一步加強。
參考文獻
[1]cloudera.com CDH 5 Installation[EB/OL].http://www.cloudera.com/documentation/cdh/5-1-x/CDH5-Installation-Guide/cdh5ig_cdh5_install.html,2015.
[2]沈蘇彬.網絡安全原理與應用[M].人民郵電出版社,2005:73-74.
[3]Bellowvin S M,Merritt M.Limitation of the Kerberos Authentication System.ACM SIGCOMM Computer Communication Review.1990:119-132.
[4]Mattias Hellborg Arthursson Ulrik Sandberg Eric Dalquist Keith Barlow Rob Winch Spring LDAP Reference[EB/OL].https://docs.spring.io/spring-ldap/docs/2.1.0.RELEASE/reference/,2016-05-16/2017-11-9.
[5]SSL與TLS Designing and Building Secure Systems[M]北京:中國電力出版社,2002.
作者單位
華南師范大學 廣東省廣州市 510000endprint