產(chǎn)品圖片

產(chǎn)品分類

新聞動態(tài)
主頁 > 新聞動態(tài) > 淺談大數(shù)據(jù)實驗室的建設(shè)
2023-12-02 08:56

淺談大數(shù)據(jù)實驗室的建設(shè)

 

1建設(shè)目標

建設(shè)云實驗平臺,在該平臺上實現(xiàn)了編程教學(xué)實驗、數(shù)據(jù)庫實驗以及網(wǎng)盤應(yīng)用系統(tǒng);該平臺技術(shù)上采用服務(wù)器虛擬化技術(shù)通過云管理平臺實現(xiàn)了實驗環(huán)境的快速部署;虛擬化平臺基于磁盤陣列集中存儲,采用FC SAN網(wǎng)絡(luò)架構(gòu)。
現(xiàn)規(guī)劃建設(shè)一個Hadoop 大數(shù)據(jù)實驗室,使用已經(jīng)建設(shè)好的平臺,通過擴展資源池的方式部署,利用現(xiàn)有服務(wù)器虛擬化平臺虛擬出大量虛擬機用于構(gòu)建Hadoop 集群,主要用于學(xué)生實驗以及科研用途。假定建設(shè)目標和規(guī)模如下:
建設(shè)目標:建設(shè)成校級實驗室,滿足學(xué)生做大數(shù)據(jù)實驗和教師大數(shù)據(jù)科研。
建設(shè)規(guī)模:系統(tǒng)支持100個左右的虛機同時運行,性能滿足學(xué)生大數(shù)據(jù)實驗需求。
擴展性需求:系統(tǒng)需具備良好擴展能力,可以方便擴展系統(tǒng)容量和性能,以滿足更多實驗和科研需求。
 

2配置方案

本章節(jié)對構(gòu)建大數(shù)據(jù)實驗室所需要的硬件資源進行配置,從大數(shù)據(jù)實驗資源需求出發(fā)來分析構(gòu)建大數(shù)據(jù)實驗室需要對現(xiàn)有物理服務(wù)器、磁盤陣列、FC交換機、IP網(wǎng)絡(luò)交換機的資源做哪些擴容。

2.1已有資源

云實驗平臺已經(jīng)部署了10多臺2路物理服務(wù)器,通過1臺FC交換機與1臺磁盤陣列連接;現(xiàn)有物理計算資源可以支撐同時運行200個虛機(1個LCPU、4GB內(nèi)存、30GB虛擬磁盤),現(xiàn)有磁盤陣列的存儲資源主要提供虛機存儲空間和網(wǎng)盤存儲空間。

2.2擴容資源需求

對資源需求進行估算是虛擬化系統(tǒng)硬件配置的基本依據(jù)。在大數(shù)據(jù)實驗室中,資源可分為兩大類:一類是運行時系統(tǒng)需要的資源,它決定了系統(tǒng)能支持同時運行多少個虛機,該情形主要關(guān)注物理服務(wù)器的CPU 資源、內(nèi)存資源和磁盤陣列的IOPS 資源,磁盤IOPS資源在大數(shù)據(jù)實驗中需求相對較高;另一類是系統(tǒng)可以“存放”多少個虛機,這主要關(guān)注磁盤陣列的存儲容量。
運行資源
假定虛機規(guī)格如下表中所示,該規(guī)格滿足大數(shù)據(jù)實驗環(huán)境下對性能的需求;則200個虛機同時運行,需提供下表中所需資源。

Linux虛機規(guī)格 同時運行虛機數(shù)量 虛擬資源池大小需求
CPU大小 2個邏輯CPU、2.0GHZ 100 CPU資源 200個邏輯CPU、200GHz
內(nèi)存大小 4GB 內(nèi)存大小 400GB
磁盤IOPS 100 磁盤IOPS 10000
當然,對于Hadoop集群中的Master虛機應(yīng)當配置大些內(nèi)存,比如8GB。
存儲容量
磁盤陣列存儲空間由需要多少個虛機和虛機磁盤大小決定,假定虛機磁盤規(guī)格如下表所示、需要存放500個虛機,總共需要約210TB的存儲空間。

Linux虛機規(guī)格 虛機總數(shù) 磁盤陣列存儲空間需求
磁盤1(系統(tǒng)盤)大小 15GB 500 磁盤空間 107500GB(100TB)
磁盤2(數(shù)據(jù)盤)大小 200GB
 

2.3物理服務(wù)器擴容配置

作為虛擬化主機的物理服務(wù)器,目前可選擇的配置主要有2路和4路,綜合考慮CPU利用率、網(wǎng)絡(luò)成本等因素,我們建議選擇2路服務(wù)器作為虛擬化主機,2路較4路將提供更好的性價比。
       首先計算總共需要多少物理的CPU資源和內(nèi)存資源,計算以上述“運行資源”為基本依據(jù),并考慮物理資源的80%用作運行虛擬機。

虛擬資源池大小 比例 物理資源池大小需求
CPU資源 200個邏輯CPU、200GHz 80% CPU資源 250個邏輯CPU 250GHz
內(nèi)存資源 400GB 內(nèi)存資源 500GB
物理服務(wù)器規(guī)格和所需數(shù)量如下表所示。
新增物理資源池大小 物理服務(wù)器規(guī)格 物理服務(wù)器數(shù)量
CPU資源 250個邏輯CPU 、250GHz CPU 2路10核、超線程(40個邏輯CPU)、2.0GHz 7
內(nèi)存資源 500GB 內(nèi)存 128GB 4
      磁盤 1*240GB SSD盤
      網(wǎng)口 4*1gb
      FC口 1*8gb
根據(jù)估算,需要新增7臺2路物理服務(wù)器即可滿足計算性能需求,本項目中我們實際配置上述規(guī)格的物理服務(wù)器8臺。

2.4磁盤陣列擴容配置

磁盤陣列作為虛擬化系統(tǒng)后端共享存儲,主要考慮IOPS性能和存儲空間的要求。存儲空間顯然容易配置,而IOPS存在諸多變數(shù),這是個無法準確估算的指標,為了使系統(tǒng)具備較好的性能,我們進行了仔細考量。
依據(jù)2.2節(jié)所估算的IOPS性能要求和存儲空間要求,估算系統(tǒng)需要多少塊SAS磁盤。

存儲資源需求 單塊SAS盤 需配置SAS磁盤數(shù)量
IOPS 10000 IOPS 200 50
存儲容量 107500GB 容量 900GB 120
同時滿足IOPS性能和容量需求需要新增約120塊SAS盤,這個投資顯得過高。為了降低存儲上的投資,我們采取如下配置和部署的策略:
第1:使用高性能SSD盤結(jié)合SAS盤,提供較SAS盤更好的性能;該部分的空間主要用于虛機的系統(tǒng)盤。
第2:使用高性能SSD盤結(jié)合大容量SATA盤,主要滿足系統(tǒng)容量的需求,并提供了接近SAS盤的性能;此部分存儲空間主要用于虛機的數(shù)據(jù)盤。
現(xiàn)有磁盤陣列擴容配置配置如下表:

磁盤陣列擴容配置 可提供的規(guī)格、功能
控制器 (雙活冗余控制器) IOPS 大于12000
緩存 (32GB) 存儲容量 120TB裸容量
SSD盤 新增:4*200GB SSD緩存 支持
SAS盤 新增:12*900GB 精簡置備 支持
SSD盤 新增:4*400GB 存儲快照 支持
SATA盤 新增:28*4TB    
       

2.5FC SAN網(wǎng)絡(luò)擴容配置

由于新增加了8臺物理服務(wù)器,F(xiàn)C交換機需要新增加激活端口和相應(yīng)模塊,數(shù)量為8個。

2.6IP網(wǎng)絡(luò)擴容配置

原交換機為48個千兆網(wǎng)口,從端口數(shù)量上來說資源是夠的,但是在大數(shù)據(jù)實驗環(huán)境中,虛機之間存在大量的東西向數(shù)據(jù)流量,因此我們設(shè)計增加一臺24口的千兆交換機用于大數(shù)據(jù)集群后端網(wǎng)絡(luò)流量通道。
      

 

2.7擴容配置清單

構(gòu)建滿足100個虛機同時運行的大數(shù)據(jù)實驗平臺,需要對現(xiàn)有云實驗平臺物理資源進行擴容,擴容包括:新增8臺物理服務(wù)器、磁盤陣列添加SSD/SAS/SATA盤、FC交換機增加激活端口、新增1臺24口IP交換機,詳細擴容配置清單如下表:
序號 名稱 品牌/型號 擴容配置描述 數(shù)量 單位
云實驗平臺硬件擴容配置
1-1 虛擬化主機 云創(chuàng)cServer 2U機架式服務(wù)器帶機架安裝套件;CPU:2顆Xeon E5-2670 V3,內(nèi)存:128GB;4個千兆網(wǎng)口;Disk:1塊240GB SSD,板載支持Raid0,1,5 ,FC口:單口8Gb; 8
1-3 磁盤陣列 云創(chuàng)
rStor 7000
擴容新增:4*200GB SSD,4*400GB SSD,12*900GB SAS盤、28*4TB SATA盤,SSD緩存功能、精簡配置功能、快照功能 0
1-4 光纖交換機 Brocade 300B 擴容新增:8個端口激活許可,8個端口8gb模塊; 0
1-5 千兆交換機 華為 S5700-28C-SI 24個10/100/1000Base-T,可插拔交流電源,交流供電 1
Hadoop教學(xué)培訓(xùn)服務(wù)
2-1       1
其他相關(guān)費用
3-1 機柜     1
3-2 定制開發(fā)        
3-3 安裝調(diào)試        
3-4 培訓(xùn)服務(wù)        
 

3部署方案

3.1系統(tǒng)架構(gòu)

系統(tǒng)架構(gòu)在擴容前后基本沒有變化,擴容后的整個虛擬化系統(tǒng)部署架構(gòu)如下圖所示。
系統(tǒng)架構(gòu)
與原先區(qū)別主要是資源池擴充了,新增的物理服務(wù)器構(gòu)成一個新的集群,并且通過新增加一臺千兆交換機構(gòu)成大數(shù)據(jù)實驗虛機后端網(wǎng)絡(luò)流量通道。

3.2IP網(wǎng)絡(luò)部署

本項目中對于IP網(wǎng)絡(luò)的部署設(shè)計,除了考慮vSphere環(huán)境下一般性的部署注意事項外,還需要注意由虛機構(gòu)成的Hadoop集群對IP網(wǎng)絡(luò)的需求。
IP網(wǎng)絡(luò)部署
       上圖是一臺物理服務(wù)器的虛擬網(wǎng)絡(luò)和物理網(wǎng)絡(luò)連接示意圖。
每個虛機配置2個虛擬千兆網(wǎng)口,一個用于虛機前端業(yè)務(wù)流量,一個用于Hadoop集群后端流量,虛擬交換機vSwitch1和vSwitch2技術(shù)上可以使用一臺、可以配置為標準虛擬交換機或分布式虛擬交換機,為了清晰和降低難度,建議配置為2個標準虛擬交換機;vSwitch0和vSwitch1上行鏈路可以互為備份,vSwitch1和vSwitch2的上行鏈路可以互為備份;物理服務(wù)器4個網(wǎng)口連接到2臺堆疊的物理交換機。這種部署設(shè)計實現(xiàn)了IP網(wǎng)絡(luò)全冗余,提供了故障切換和網(wǎng)絡(luò)負載均衡功能。

3.3Hadoop集群部署

通過虛機部署Hadoop集群,當然需要評估虛機資源的需求,即使評估有誤也無關(guān)系,虛擬化的一大好處就在于資源可以靈活調(diào)整。
在部署和使用虛機時,我們可以結(jié)合使用虛機模板、虛機克隆、虛機快照等技術(shù)為創(chuàng)建和使用實驗環(huán)境提供便利。
Hadoop集群包含了Master節(jié)點和Slave節(jié)點,可以進行Hadoop部署實驗、HDFS實驗、MapReduce實驗、HBase實驗、Hive實驗等。下表是節(jié)點虛機配置參考。

Master節(jié)點配置參考 Slave節(jié)點配置參考
CPU 2*LCPU CPU 1-2*LCPU
MEM 8-16GB MEM 2-8GB
Disk1(sda) 15GB Disk1(sda) 15GB
Disk2(sdb) 20GB Disk2(sdb) 50-200GB
虛擬網(wǎng)卡1 千兆 虛擬網(wǎng)卡1 千兆
虛擬網(wǎng)卡2 千兆 虛擬網(wǎng)卡2 千兆
本項目部署時,需要注意一個細節(jié)點是:我們應(yīng)該盡量將一個Hadoop集群內(nèi)的所有虛機運行在一臺物理服務(wù)器上,避免IP流量流出物理服務(wù)器。

3.4部署計劃

下表給出本項目部署實施的一些主要任務(wù)和時間預(yù)估。
任務(wù) 時間
IP地址規(guī)劃,VLAN規(guī)劃 4H
Fabric Zone規(guī)劃 1H
存儲LUN規(guī)劃 2H
虛機資源規(guī)劃 1H
設(shè)備上架,完成物理安裝 1D
磁盤陣列初始安裝 2H
FC交換機配置 2H
IP網(wǎng)絡(luò)配置(交換機、路由器) 2H
存儲完成配置 2H
vSphere安裝配置 1.5D
虛機資源規(guī)劃 2H
軟件ISO導(dǎo)入,虛機模板創(chuàng)建 1H
第一個大數(shù)據(jù)集群建立 1D
使用測試,調(diào)整 2D
創(chuàng)建其他大數(shù)據(jù)集群