產(chǎn)品圖片

產(chǎn)品分類

新聞動(dòng)態(tài)
主頁 > 新聞動(dòng)態(tài) > 淺談大數(shù)據(jù)實(shí)驗(yàn)室的建設(shè)
2023-12-02 08:56

淺談大數(shù)據(jù)實(shí)驗(yàn)室的建設(shè)

 

1建設(shè)目標(biāo)

建設(shè)云實(shí)驗(yàn)平臺(tái),在該平臺(tái)上實(shí)現(xiàn)了編程教學(xué)實(shí)驗(yàn)、數(shù)據(jù)庫實(shí)驗(yàn)以及網(wǎng)盤應(yīng)用系統(tǒng);該平臺(tái)技術(shù)上采用服務(wù)器虛擬化技術(shù)通過云管理平臺(tái)實(shí)現(xiàn)了實(shí)驗(yàn)環(huán)境的快速部署;虛擬化平臺(tái)基于磁盤陣列集中存儲(chǔ),采用FC SAN網(wǎng)絡(luò)架構(gòu)。
現(xiàn)規(guī)劃建設(shè)一個(gè)Hadoop 大數(shù)據(jù)實(shí)驗(yàn)室,使用已經(jīng)建設(shè)好的平臺(tái),通過擴(kuò)展資源池的方式部署,利用現(xiàn)有服務(wù)器虛擬化平臺(tái)虛擬出大量虛擬機(jī)用于構(gòu)建Hadoop 集群,主要用于學(xué)生實(shí)驗(yàn)以及科研用途。假定建設(shè)目標(biāo)和規(guī)模如下:
建設(shè)目標(biāo):建設(shè)成校級(jí)實(shí)驗(yàn)室,滿足學(xué)生做大數(shù)據(jù)實(shí)驗(yàn)和教師大數(shù)據(jù)科研。
建設(shè)規(guī)模:系統(tǒng)支持100個(gè)左右的虛機(jī)同時(shí)運(yùn)行,性能滿足學(xué)生大數(shù)據(jù)實(shí)驗(yàn)需求。
擴(kuò)展性需求:系統(tǒng)需具備良好擴(kuò)展能力,可以方便擴(kuò)展系統(tǒng)容量和性能,以滿足更多實(shí)驗(yàn)和科研需求。
 

2配置方案

本章節(jié)對(duì)構(gòu)建大數(shù)據(jù)實(shí)驗(yàn)室所需要的硬件資源進(jìn)行配置,從大數(shù)據(jù)實(shí)驗(yàn)資源需求出發(fā)來分析構(gòu)建大數(shù)據(jù)實(shí)驗(yàn)室需要對(duì)現(xiàn)有物理服務(wù)器、磁盤陣列、FC交換機(jī)、IP網(wǎng)絡(luò)交換機(jī)的資源做哪些擴(kuò)容。

2.1已有資源

云實(shí)驗(yàn)平臺(tái)已經(jīng)部署了10多臺(tái)2路物理服務(wù)器,通過1臺(tái)FC交換機(jī)與1臺(tái)磁盤陣列連接;現(xiàn)有物理計(jì)算資源可以支撐同時(shí)運(yùn)行200個(gè)虛機(jī)(1個(gè)LCPU、4GB內(nèi)存、30GB虛擬磁盤),現(xiàn)有磁盤陣列的存儲(chǔ)資源主要提供虛機(jī)存儲(chǔ)空間和網(wǎng)盤存儲(chǔ)空間。

2.2擴(kuò)容資源需求

對(duì)資源需求進(jìn)行估算是虛擬化系統(tǒng)硬件配置的基本依據(jù)。在大數(shù)據(jù)實(shí)驗(yàn)室中,資源可分為兩大類:一類是運(yùn)行時(shí)系統(tǒng)需要的資源,它決定了系統(tǒng)能支持同時(shí)運(yùn)行多少個(gè)虛機(jī),該情形主要關(guān)注物理服務(wù)器的CPU 資源、內(nèi)存資源和磁盤陣列的IOPS 資源,磁盤IOPS資源在大數(shù)據(jù)實(shí)驗(yàn)中需求相對(duì)較高;另一類是系統(tǒng)可以“存放”多少個(gè)虛機(jī),這主要關(guān)注磁盤陣列的存儲(chǔ)容量。
運(yùn)行資源
假定虛機(jī)規(guī)格如下表中所示,該規(guī)格滿足大數(shù)據(jù)實(shí)驗(yàn)環(huán)境下對(duì)性能的需求;則200個(gè)虛機(jī)同時(shí)運(yùn)行,需提供下表中所需資源。

Linux虛機(jī)規(guī)格 同時(shí)運(yùn)行虛機(jī)數(shù)量 虛擬資源池大小需求
CPU大小 2個(gè)邏輯CPU、2.0GHZ 100 CPU資源 200個(gè)邏輯CPU、200GHz
內(nèi)存大小 4GB 內(nèi)存大小 400GB
磁盤IOPS 100 磁盤IOPS 10000
當(dāng)然,對(duì)于Hadoop集群中的Master虛機(jī)應(yīng)當(dāng)配置大些內(nèi)存,比如8GB。
存儲(chǔ)容量
磁盤陣列存儲(chǔ)空間由需要多少個(gè)虛機(jī)和虛機(jī)磁盤大小決定,假定虛機(jī)磁盤規(guī)格如下表所示、需要存放500個(gè)虛機(jī),總共需要約210TB的存儲(chǔ)空間。

Linux虛機(jī)規(guī)格 虛機(jī)總數(shù) 磁盤陣列存儲(chǔ)空間需求
磁盤1(系統(tǒng)盤)大小 15GB 500 磁盤空間 107500GB(100TB)
磁盤2(數(shù)據(jù)盤)大小 200GB
 

2.3物理服務(wù)器擴(kuò)容配置

作為虛擬化主機(jī)的物理服務(wù)器,目前可選擇的配置主要有2路和4路,綜合考慮CPU利用率、網(wǎng)絡(luò)成本等因素,我們建議選擇2路服務(wù)器作為虛擬化主機(jī),2路較4路將提供更好的性價(jià)比。
       首先計(jì)算總共需要多少物理的CPU資源和內(nèi)存資源,計(jì)算以上述“運(yùn)行資源”為基本依據(jù),并考慮物理資源的80%用作運(yùn)行虛擬機(jī)。

虛擬資源池大小 比例 物理資源池大小需求
CPU資源 200個(gè)邏輯CPU、200GHz 80% CPU資源 250個(gè)邏輯CPU 250GHz
內(nèi)存資源 400GB 內(nèi)存資源 500GB
物理服務(wù)器規(guī)格和所需數(shù)量如下表所示。
新增物理資源池大小 物理服務(wù)器規(guī)格 物理服務(wù)器數(shù)量
CPU資源 250個(gè)邏輯CPU 、250GHz CPU 2路10核、超線程(40個(gè)邏輯CPU)、2.0GHz 7
內(nèi)存資源 500GB 內(nèi)存 128GB 4
      磁盤 1*240GB SSD盤
      網(wǎng)口 4*1gb
      FC口 1*8gb
根據(jù)估算,需要新增7臺(tái)2路物理服務(wù)器即可滿足計(jì)算性能需求,本項(xiàng)目中我們實(shí)際配置上述規(guī)格的物理服務(wù)器8臺(tái)。

2.4磁盤陣列擴(kuò)容配置

磁盤陣列作為虛擬化系統(tǒng)后端共享存儲(chǔ),主要考慮IOPS性能和存儲(chǔ)空間的要求。存儲(chǔ)空間顯然容易配置,而IOPS存在諸多變數(shù),這是個(gè)無法準(zhǔn)確估算的指標(biāo),為了使系統(tǒng)具備較好的性能,我們進(jìn)行了仔細(xì)考量。
依據(jù)2.2節(jié)所估算的IOPS性能要求和存儲(chǔ)空間要求,估算系統(tǒng)需要多少塊SAS磁盤。

存儲(chǔ)資源需求 單塊SAS盤 需配置SAS磁盤數(shù)量
IOPS 10000 IOPS 200 50
存儲(chǔ)容量 107500GB 容量 900GB 120
同時(shí)滿足IOPS性能和容量需求需要新增約120塊SAS盤,這個(gè)投資顯得過高。為了降低存儲(chǔ)上的投資,我們采取如下配置和部署的策略:
第1:使用高性能SSD盤結(jié)合SAS盤,提供較SAS盤更好的性能;該部分的空間主要用于虛機(jī)的系統(tǒng)盤。
第2:使用高性能SSD盤結(jié)合大容量SATA盤,主要滿足系統(tǒng)容量的需求,并提供了接近SAS盤的性能;此部分存儲(chǔ)空間主要用于虛機(jī)的數(shù)據(jù)盤。
現(xiàn)有磁盤陣列擴(kuò)容配置配置如下表:

磁盤陣列擴(kuò)容配置 可提供的規(guī)格、功能
控制器 (雙活冗余控制器) IOPS 大于12000
緩存 (32GB) 存儲(chǔ)容量 120TB裸容量
SSD盤 新增:4*200GB SSD緩存 支持
SAS盤 新增:12*900GB 精簡置備 支持
SSD盤 新增:4*400GB 存儲(chǔ)快照 支持
SATA盤 新增:28*4TB    
       

2.5FC SAN網(wǎng)絡(luò)擴(kuò)容配置

由于新增加了8臺(tái)物理服務(wù)器,F(xiàn)C交換機(jī)需要新增加激活端口和相應(yīng)模塊,數(shù)量為8個(gè)。

2.6IP網(wǎng)絡(luò)擴(kuò)容配置

原交換機(jī)為48個(gè)千兆網(wǎng)口,從端口數(shù)量上來說資源是夠的,但是在大數(shù)據(jù)實(shí)驗(yàn)環(huán)境中,虛機(jī)之間存在大量的東西向數(shù)據(jù)流量,因此我們?cè)O(shè)計(jì)增加一臺(tái)24口的千兆交換機(jī)用于大數(shù)據(jù)集群后端網(wǎng)絡(luò)流量通道。
      

 

2.7擴(kuò)容配置清單

構(gòu)建滿足100個(gè)虛機(jī)同時(shí)運(yùn)行的大數(shù)據(jù)實(shí)驗(yàn)平臺(tái),需要對(duì)現(xiàn)有云實(shí)驗(yàn)平臺(tái)物理資源進(jìn)行擴(kuò)容,擴(kuò)容包括:新增8臺(tái)物理服務(wù)器、磁盤陣列添加SSD/SAS/SATA盤、FC交換機(jī)增加激活端口、新增1臺(tái)24口IP交換機(jī),詳細(xì)擴(kuò)容配置清單如下表:
序號(hào) 名稱 品牌/型號(hào) 擴(kuò)容配置描述 數(shù)量 單位
云實(shí)驗(yàn)平臺(tái)硬件擴(kuò)容配置
1-1 虛擬化主機(jī) 云創(chuàng)cServer 2U機(jī)架式服務(wù)器帶機(jī)架安裝套件;CPU:2顆Xeon E5-2670 V3,內(nèi)存:128GB;4個(gè)千兆網(wǎng)口;Disk:1塊240GB SSD,板載支持Raid0,1,5 ,FC口:單口8Gb; 8 臺(tái)
1-3 磁盤陣列 云創(chuàng)
rStor 7000
擴(kuò)容新增:4*200GB SSD,4*400GB SSD,12*900GB SAS盤、28*4TB SATA盤,SSD緩存功能、精簡配置功能、快照功能 0 臺(tái)
1-4 光纖交換機(jī) Brocade 300B 擴(kuò)容新增:8個(gè)端口激活許可,8個(gè)端口8gb模塊; 0 臺(tái)
1-5 千兆交換機(jī) 華為 S5700-28C-SI 24個(gè)10/100/1000Base-T,可插拔交流電源,交流供電 1 臺(tái)
Hadoop教學(xué)培訓(xùn)服務(wù)
2-1       1
其他相關(guān)費(fèi)用
3-1 機(jī)柜     1 臺(tái)
3-2 定制開發(fā)        
3-3 安裝調(diào)試        
3-4 培訓(xùn)服務(wù)        
 

3部署方案

3.1系統(tǒng)架構(gòu)

系統(tǒng)架構(gòu)在擴(kuò)容前后基本沒有變化,擴(kuò)容后的整個(gè)虛擬化系統(tǒng)部署架構(gòu)如下圖所示。
系統(tǒng)架構(gòu)
與原先區(qū)別主要是資源池?cái)U(kuò)充了,新增的物理服務(wù)器構(gòu)成一個(gè)新的集群,并且通過新增加一臺(tái)千兆交換機(jī)構(gòu)成大數(shù)據(jù)實(shí)驗(yàn)虛機(jī)后端網(wǎng)絡(luò)流量通道。

3.2IP網(wǎng)絡(luò)部署

本項(xiàng)目中對(duì)于IP網(wǎng)絡(luò)的部署設(shè)計(jì),除了考慮vSphere環(huán)境下一般性的部署注意事項(xiàng)外,還需要注意由虛機(jī)構(gòu)成的Hadoop集群對(duì)IP網(wǎng)絡(luò)的需求。
IP網(wǎng)絡(luò)部署
       上圖是一臺(tái)物理服務(wù)器的虛擬網(wǎng)絡(luò)和物理網(wǎng)絡(luò)連接示意圖。
每個(gè)虛機(jī)配置2個(gè)虛擬千兆網(wǎng)口,一個(gè)用于虛機(jī)前端業(yè)務(wù)流量,一個(gè)用于Hadoop集群后端流量,虛擬交換機(jī)vSwitch1和vSwitch2技術(shù)上可以使用一臺(tái)、可以配置為標(biāo)準(zhǔn)虛擬交換機(jī)或分布式虛擬交換機(jī),為了清晰和降低難度,建議配置為2個(gè)標(biāo)準(zhǔn)虛擬交換機(jī);vSwitch0和vSwitch1上行鏈路可以互為備份,vSwitch1和vSwitch2的上行鏈路可以互為備份;物理服務(wù)器4個(gè)網(wǎng)口連接到2臺(tái)堆疊的物理交換機(jī)。這種部署設(shè)計(jì)實(shí)現(xiàn)了IP網(wǎng)絡(luò)全冗余,提供了故障切換和網(wǎng)絡(luò)負(fù)載均衡功能。

3.3Hadoop集群部署

通過虛機(jī)部署Hadoop集群,當(dāng)然需要評(píng)估虛機(jī)資源的需求,即使評(píng)估有誤也無關(guān)系,虛擬化的一大好處就在于資源可以靈活調(diào)整。
在部署和使用虛機(jī)時(shí),我們可以結(jié)合使用虛機(jī)模板、虛機(jī)克隆、虛機(jī)快照等技術(shù)為創(chuàng)建和使用實(shí)驗(yàn)環(huán)境提供便利。
Hadoop集群包含了Master節(jié)點(diǎn)和Slave節(jié)點(diǎn),可以進(jìn)行Hadoop部署實(shí)驗(yàn)、HDFS實(shí)驗(yàn)、MapReduce實(shí)驗(yàn)、HBase實(shí)驗(yàn)、Hive實(shí)驗(yàn)等。下表是節(jié)點(diǎn)虛機(jī)配置參考。

Master節(jié)點(diǎn)配置參考 Slave節(jié)點(diǎn)配置參考
CPU 2*LCPU CPU 1-2*LCPU
MEM 8-16GB MEM 2-8GB
Disk1(sda) 15GB Disk1(sda) 15GB
Disk2(sdb) 20GB Disk2(sdb) 50-200GB
虛擬網(wǎng)卡1 千兆 虛擬網(wǎng)卡1 千兆
虛擬網(wǎng)卡2 千兆 虛擬網(wǎng)卡2 千兆
本項(xiàng)目部署時(shí),需要注意一個(gè)細(xì)節(jié)點(diǎn)是:我們應(yīng)該盡量將一個(gè)Hadoop集群內(nèi)的所有虛機(jī)運(yùn)行在一臺(tái)物理服務(wù)器上,避免IP流量流出物理服務(wù)器。

3.4部署計(jì)劃

下表給出本項(xiàng)目部署實(shí)施的一些主要任務(wù)和時(shí)間預(yù)估。
任務(wù) 時(shí)間
IP地址規(guī)劃,VLAN規(guī)劃 4H
Fabric Zone規(guī)劃 1H
存儲(chǔ)LUN規(guī)劃 2H
虛機(jī)資源規(guī)劃 1H
設(shè)備上架,完成物理安裝 1D
磁盤陣列初始安裝 2H
FC交換機(jī)配置 2H
IP網(wǎng)絡(luò)配置(交換機(jī)、路由器) 2H
存儲(chǔ)完成配置 2H
vSphere安裝配置 1.5D
虛機(jī)資源規(guī)劃 2H
軟件ISO導(dǎo)入,虛機(jī)模板創(chuàng)建 1H
第一個(gè)大數(shù)據(jù)集群建立 1D
使用測(cè)試,調(diào)整 2D
創(chuàng)建其他大數(shù)據(jù)集群