【IT168 云計(jì)算】改革開放以來,我國能源電力取得了舉世矚目的發(fā)展成就,發(fā)電裝機(jī)、用電量、電網(wǎng)規(guī)模均位列世界第一。如何響應(yīng)國家號(hào)召,加強(qiáng)供給側(cè)結(jié)構(gòu)性改革,增強(qiáng)持續(xù)增長動(dòng)力,以提高供給體系的結(jié)構(gòu)和效率,是電力行業(yè)的當(dāng)務(wù)之急。作為國家電網(wǎng)公司全資的黑龍江省電力公司(以下簡(jiǎn)稱:黑龍江電力),在負(fù)責(zé)建設(shè)、運(yùn)行維護(hù)省電網(wǎng)及保障全區(qū)安全可靠供電任務(wù)的同時(shí),積極擁抱云計(jì)算技術(shù),通過技術(shù)創(chuàng)新實(shí)現(xiàn)自身的戰(zhàn)略使命成為了當(dāng)務(wù)之急。
作為國家經(jīng)濟(jì)命脈,電力系統(tǒng)任何中斷都會(huì)造成巨大的社會(huì)和經(jīng)濟(jì)影響。因此國家電網(wǎng)實(shí)時(shí)監(jiān)控著各個(gè)省電力公司的業(yè)務(wù)系統(tǒng)運(yùn)行情況。這對(duì)原本主要依靠專有硬件設(shè)備堆砌來解決系統(tǒng)可靠性的省電力系統(tǒng)向靈活敏捷的云化轉(zhuǎn)型,提出巨大挑戰(zhàn)。
經(jīng)過審慎的評(píng)估、選型,黑龍江電力與在OpenStack領(lǐng)域擁有豐富中大規(guī)模企業(yè)級(jí)實(shí)踐經(jīng)驗(yàn)及技術(shù)實(shí)力的EasyStack合作建起首期即超過200節(jié)點(diǎn)的電力云計(jì)算平臺(tái),率先在電力行業(yè)走出核心業(yè)務(wù)擁抱云計(jì)算的第一步!目前,包括營銷、財(cái)務(wù)管控、電能量現(xiàn)代化應(yīng)用、移動(dòng)作業(yè)管理、全國電力市場(chǎng)技術(shù)支撐、電網(wǎng)GIS等業(yè)務(wù)生產(chǎn)系統(tǒng)均已在黑龍江電力云平臺(tái)順利上線,同期上線的還包括大數(shù)據(jù)分析、數(shù)據(jù)交換等數(shù)據(jù)處理系統(tǒng)。整個(gè)云平臺(tái)計(jì)劃達(dá)到700臺(tái)物理節(jié)點(diǎn),成為電力系統(tǒng)內(nèi)首屈一指、示范性云平臺(tái)系統(tǒng)。
黑龍江電力信通公司副總經(jīng)理趙威表示,“本次國家電網(wǎng)黑龍江公司的OpenStack云平臺(tái),實(shí)現(xiàn)了計(jì)算、存儲(chǔ)、網(wǎng)絡(luò)資源徹底的云化,并將全部業(yè)務(wù)系統(tǒng)遷移到云計(jì)算平臺(tái)中,在1年的運(yùn)營過程中,不僅穩(wěn)定可靠,更大幅提升了運(yùn)行效率。我們還將在此基礎(chǔ)上開展運(yùn)維自動(dòng)化相關(guān)工具的研究,并實(shí)現(xiàn)與大數(shù)據(jù)平臺(tái)相結(jié)合。該OpenStack云平臺(tái)將為黑龍江電力進(jìn)一步實(shí)現(xiàn)業(yè)務(wù)創(chuàng)新提供穩(wěn)定靈活、自主可控的基礎(chǔ)架構(gòu)支撐?!?/p>
黑龍江電力云平臺(tái)方案設(shè)計(jì)
考慮到整個(gè)云平臺(tái)的設(shè)計(jì)規(guī)模將達(dá)到700臺(tái)物理服務(wù)器,同時(shí)所承載的是電力行業(yè)核心生產(chǎn)系統(tǒng),云平臺(tái)的可靠性和可用性要求成為首要設(shè)計(jì)指標(biāo),針對(duì)這一現(xiàn)狀,黑龍江電力公司決定采用開源技術(shù)來構(gòu)建自身的云品臺(tái)方案。
▲黑龍江電力云平臺(tái)網(wǎng)絡(luò)架構(gòu)示意圖
具備OpenStack控制平面高可用與高性能的云管理平臺(tái)
整個(gè)OpenStack云平臺(tái)的高可用主要依賴控制平面的高可用,設(shè)計(jì)難點(diǎn)在于如何平衡關(guān)鍵服務(wù)可靠性與平臺(tái)可擴(kuò)展性之間的矛盾,同時(shí)從計(jì)算、網(wǎng)絡(luò)、存儲(chǔ)等模塊優(yōu)化OpenStack平臺(tái)消息機(jī)制,經(jīng)過優(yōu)化后,平臺(tái)組件間的冗余消息大幅減少,消息轉(zhuǎn)發(fā)效率大幅提升,為承載千臺(tái)規(guī)模計(jì)算節(jié)點(diǎn)打下了基礎(chǔ)。
通過HA以及云平臺(tái)的高可靠設(shè)計(jì)等方案的實(shí)施使之區(qū)別并領(lǐng)先于其它OpenStack發(fā)行版,可用于承載核心業(yè)務(wù)的中大規(guī)模云計(jì)算環(huán)境,輕松應(yīng)對(duì)電力系統(tǒng)傳統(tǒng)與創(chuàng)新的業(yè)務(wù)挑戰(zhàn)。
深入優(yōu)化計(jì)算、存儲(chǔ)以及網(wǎng)絡(luò)性能,從KVM、OVS、Ceph等最底層技術(shù)開始源代碼級(jí)優(yōu)化,最終提供接近物理硬件能力的計(jì)算、存儲(chǔ)和網(wǎng)絡(luò)性能,為黑龍江電力各個(gè)核心業(yè)務(wù)系統(tǒng)提供了高性能、可靠的服務(wù)平臺(tái)。
計(jì)算虛擬化
通過實(shí)施OpenStack云計(jì)算,可以按照黑龍江電力各個(gè)業(yè)務(wù)所需的計(jì)算能力的規(guī)模,將各個(gè)業(yè)務(wù)部署到合適的物理中,有效整合物理機(jī)資源,提高資源利用率。通過每個(gè)VM隔離應(yīng)用,保證單個(gè)VM的資源需求得到滿足。在單臺(tái)物理機(jī)故障或宕機(jī)的情況下,將業(yè)務(wù)系統(tǒng)按計(jì)劃遷移到其他物理機(jī)或者盡快在其他物理機(jī)恢復(fù),保證SLA,降低業(yè)務(wù)連續(xù)性風(fēng)險(xiǎn)。通過與黑龍江各個(gè)業(yè)務(wù)系統(tǒng)應(yīng)用軟件集群相結(jié)合,實(shí)現(xiàn)整個(gè)業(yè)務(wù)系統(tǒng)的高可靠性、高連續(xù)性、快速擴(kuò)展性。
在黑龍江電力云平臺(tái)方案中,使用OpenStack,Centos,KVM這樣的開源軟件可以避免廠商鎖定,對(duì)幾乎所有的x86服務(wù)器均開放,同時(shí)對(duì)MySQL,Oracle,Weblogic等數(shù)據(jù)庫和中間件應(yīng)用服務(wù)器也能開放性的支撐,達(dá)到自主、可控的目的,同時(shí)降低軟硬件的CAPEX(資本支出)和OPEX(運(yùn)營支出)。
分布式存儲(chǔ)Ceph
鑒于運(yùn)用商業(yè)存儲(chǔ)的一些問題,同時(shí)考慮黑龍江電力業(yè)務(wù)系統(tǒng)對(duì)性能和可靠性,擴(kuò)展性的要求以及目前設(shè)備環(huán)境現(xiàn)狀——盡量避免由于實(shí)施需要采購新設(shè)備、增加部署工作量、延長云平臺(tái)方案實(shí)施周期等,只要對(duì)目前設(shè)備環(huán)境做少許變更即可實(shí)施。
黑龍江電力采用利用開源技術(shù)實(shí)現(xiàn)的分布式存儲(chǔ)Ceph,并使用Cinder可以使用Ceph作為后端存儲(chǔ)。實(shí)現(xiàn)了統(tǒng)一存儲(chǔ),提供對(duì)象存儲(chǔ),塊存儲(chǔ)及文件系統(tǒng)的支持;無任何單點(diǎn)故障;數(shù)據(jù)多份冗余;存儲(chǔ)容量可擴(kuò)展;自動(dòng)容錯(cuò)及故障自愈;并支持快照、備份、恢復(fù),支持QEMU及Libvirt虛擬化等功能。
黑龍江電力在實(shí)際部署時(shí),通過對(duì)SSD極速、HDD高容量?jī)蓚€(gè)資源池的OSD的設(shè)置,完成了3份數(shù)據(jù)副本的支持?;贑eph的分布式高性能存儲(chǔ)方案,極大的提高了云主機(jī)的IO性能,足以應(yīng)對(duì)各種苛刻的企業(yè)應(yīng)用需求。黑龍江電力云平臺(tái)現(xiàn)狀可以在10秒內(nèi)完成一臺(tái)云主機(jī)的創(chuàng)建;支持實(shí)時(shí)快照,對(duì)1T硬盤的快照的操作耗時(shí)不超過2秒。
由于數(shù)據(jù)量增長迅猛,黑龍江電力在方案部署期間進(jìn)行了多次存儲(chǔ)擴(kuò)容, 在擴(kuò)容過程中 ,由于數(shù)據(jù)量較大, 為保證不影響已上線業(yè)務(wù)的正常運(yùn)行, 通過降低Ceph rebalance優(yōu)先級(jí)的方式, 在不影響業(yè)務(wù)的情況下, 實(shí)現(xiàn)了存儲(chǔ)的在線擴(kuò)容。
網(wǎng)絡(luò)虛擬化
為了滿足業(yè)務(wù)對(duì)網(wǎng)絡(luò)性能和擴(kuò)展性,可靠性的需求,此次虛機(jī)網(wǎng)絡(luò)沒有通過L3 router轉(zhuǎn)發(fā), 而是直接連接至對(duì)應(yīng)VLAN網(wǎng)關(guān),來保證用戶實(shí)際的使用性能與感受。最終方案通過使用VLAN+OpenVSwitch方式配置網(wǎng)絡(luò),合理分配不同網(wǎng)絡(luò)平面的流量。
▲黑龍江電力云平臺(tái)網(wǎng)絡(luò)邏輯示意圖
其中:
通信網(wǎng)——用于云內(nèi)部虛擬機(jī)間通信;
業(yè)務(wù)網(wǎng)——用于虛擬機(jī)提供外部業(yè)務(wù)訪問;
存儲(chǔ)網(wǎng)——用于Ceph集群間數(shù)據(jù)拷貝;
部署網(wǎng)——用于物理主機(jī)云環(huán)境部署;
管理網(wǎng)——用于OpenStack與被管理主機(jī)間通信;
通過多個(gè)網(wǎng)絡(luò)節(jié)點(diǎn),實(shí)現(xiàn)公網(wǎng)的負(fù)載均衡及HA,高性能和高可用, 網(wǎng)絡(luò)節(jié)點(diǎn)使用Router級(jí)別的Active/Standby方式實(shí)現(xiàn)HA,并使用獨(dú)立的網(wǎng)絡(luò)路由監(jiān)控服務(wù)確保網(wǎng)絡(luò)HA的穩(wěn)定性。
OpenStack云環(huán)境運(yùn)維
大規(guī)模集群的部署涉及到資產(chǎn)管理的問題,黑龍江電力方案中所有物理機(jī)機(jī)器均已登記在冊(cè),并在機(jī)架的固定位置標(biāo)號(hào)。安裝工具Roller為指定固定IP地址,保證新集群部署完畢之后與現(xiàn)有資產(chǎn)表保持完全一致。后期運(yùn)維同樣可以使用Roller靈活擴(kuò)展集群規(guī)模。
此外,黑龍江電力云平臺(tái)實(shí)現(xiàn)了公司內(nèi)部IM平臺(tái)(合創(chuàng)圈)的自動(dòng)化部署,運(yùn)維人員僅需發(fā)送文字,即可實(shí)現(xiàn)交互完成部署。此外,方案中還運(yùn)用了自動(dòng)運(yùn)維、巡檢腳本, 來定期設(shè)置與執(zhí)行運(yùn)維任務(wù)。
OpenStack云計(jì)算監(jiān)控——業(yè)務(wù)連續(xù)性的保障
黑龍江電力方案中一旦物理機(jī)、OpenStack服務(wù)、或Ceph集群出現(xiàn)異常, Zabbix均能監(jiān)控到并自動(dòng)報(bào)警. 將報(bào)警信息以短信、微信的形式發(fā)送到相關(guān)運(yùn)維人員的手機(jī)上。通過與Zabbix監(jiān)控集成,實(shí)現(xiàn)現(xiàn)場(chǎng)大屏幕、指示燈,及自動(dòng)化短信發(fā)送。
OpenStack安全
黑龍江電力對(duì)OpenStack安全是主要從權(quán)限管理和網(wǎng)絡(luò)安全管理來控制對(duì)云平臺(tái)安全的保證。實(shí)現(xiàn)對(duì)OpenStack各個(gè)組件之間的API調(diào)用進(jìn)行身份識(shí)別;通過用戶,租戶或項(xiàng)目(角色控制服務(wù)消費(fèi)者對(duì)各個(gè)服務(wù)資源的訪問權(quán)限。
此外,黑龍江電力還運(yùn)用OpenStack實(shí)現(xiàn)三層分級(jí)賬戶權(quán)限管理, 為不同權(quán)限級(jí)別的用戶呈現(xiàn)不同的導(dǎo)航界面,支持每個(gè)業(yè)務(wù)項(xiàng)目組來部署與修改自己的虛機(jī)。
結(jié)語:電力+互聯(lián)網(wǎng) 擁抱云計(jì)算正當(dāng)時(shí)
目前,黑龍江電力云計(jì)算平臺(tái)共計(jì)部署物理主機(jī)272臺(tái),完成營銷系統(tǒng)、財(cái)務(wù)管控、PMS2.0、電力交易、GIS平臺(tái)等80%系統(tǒng)遷移。營銷系統(tǒng)已連續(xù)運(yùn)行13個(gè)月,運(yùn)行效率提升近30%,100%業(yè)務(wù)系統(tǒng)完成入云。
其中,營銷月結(jié)時(shí)計(jì)算時(shí)長從原12小時(shí)縮短到72分鐘,效率提升900%; 營銷系統(tǒng)合帳報(bào)表耗時(shí)從原1小時(shí)47分鐘縮短到4分鐘效率提升2575%;高峰頁面訪問響應(yīng)時(shí)長由6-8秒縮短至1-2秒,效率提升300%。
▲黑龍江電力云平臺(tái)系統(tǒng)遷移前后測(cè)試對(duì)比表
借電力云平臺(tái)的搭建,黑龍江電力還完成了Hadoop平臺(tái)搭建,實(shí)現(xiàn)離線數(shù)據(jù)分析;以在線統(tǒng)一日志分析平臺(tái)實(shí)現(xiàn)對(duì)服務(wù)器、網(wǎng)絡(luò)設(shè)備、安全設(shè)備、數(shù)據(jù)庫、系統(tǒng)中間件、權(quán)限管理系統(tǒng)、端設(shè)備的日志收集,及對(duì)即時(shí)通訊系統(tǒng)信息分析。
“十三五”期間,在云計(jì)算、大數(shù)據(jù)等相關(guān)技術(shù)的推動(dòng)下,各行各業(yè)都在謀求變化,試圖構(gòu)建新的產(chǎn)業(yè)格局,占據(jù)產(chǎn)業(yè)發(fā)展的制高點(diǎn)的時(shí)機(jī),而黑龍江電力敢為天下先,以創(chuàng)新的態(tài)度與穩(wěn)健的方式將電力核心業(yè)務(wù)系統(tǒng)與OpenStack云平臺(tái)+互聯(lián)網(wǎng)的結(jié)合,將會(huì)在電力系統(tǒng)中投映出更加璀璨的未來。