北京2023年9月22日 /美通社/ -- 隨著人工智能、云計(jì)算等技術(shù)的快速發(fā)展,算力需求爆發(fā),服務(wù)器設(shè)計(jì)呈現(xiàn)多元異構(gòu)特征,如何快速適配多種通用計(jì)算處理器、多種異構(gòu)加速器和各類部件,實(shí)現(xiàn)服務(wù)器高效、穩(wěn)定、可靠運(yùn)行,對(duì)服務(wù)器管理的兼容性、精細(xì)度、定制化和快速迭代能力提出了一系列新的挑戰(zhàn),BMC作為服務(wù)器管理和監(jiān)控的核心部件,相關(guān)技術(shù)和發(fā)展趨勢(shì)備受關(guān)注。
近日,在ODCC峰會(huì)"數(shù)據(jù)中心管理的開放之路"的圓桌對(duì)話上,來(lái)自英特爾、三星和浪潮信息的技術(shù)專家,從多元算力時(shí)代下管理固件面臨的挑戰(zhàn)、OpenBMC社區(qū)的發(fā)展現(xiàn)狀、管理固件未來(lái)發(fā)展趨勢(shì)等方向,暢聊數(shù)據(jù)中心固件管理開放之路,深度探討OpenBMC為數(shù)據(jù)中心固件管理發(fā)展帶來(lái)的全新機(jī)遇與變革路徑。
數(shù)據(jù)中心規(guī)?;l(fā)展,點(diǎn)燃BMC管理固件開源開放
BMC是在服務(wù)器中嵌入的復(fù)雜而獨(dú)立SoC(System on Chip)系統(tǒng),硬件上由BMC處理器、內(nèi)存、Flash和外圍I/O組成,連接著服務(wù)器的處理器、存儲(chǔ)、傳感器等各類組件,軟件上基于Linux內(nèi)核構(gòu)建了嵌入式操作系統(tǒng)固件。BMC固件是服務(wù)器、整機(jī)柜到數(shù)據(jù)中心IT設(shè)備管理的關(guān)鍵核心, BMC不僅可以通過(guò)遠(yuǎn)程控制、故障診斷、配置部署、固件升級(jí)等各類運(yùn)維管理功能,保障服務(wù)器安全可靠運(yùn)行,也可以為整機(jī)柜、數(shù)據(jù)中心管理平臺(tái)提供Redfish、IPMI、SNMP等API接口,實(shí)現(xiàn)海量服務(wù)器遠(yuǎn)程集中運(yùn)維管理和批量部署,是數(shù)據(jù)中心高效管理的核心組件。
英特爾云計(jì)算系統(tǒng)架構(gòu)師劉凌云在回顧BMC的演進(jìn)過(guò)程中表示,BMC固件以往依賴IBV(Independent BMC Vendor,獨(dú)立BMC固件提供商)設(shè)計(jì)的閉源商業(yè)方案。但隨著超大規(guī)?;ヂ?lián)網(wǎng)應(yīng)用場(chǎng)景的增多,傳統(tǒng)BMC開發(fā)周期長(zhǎng)、線上故障響應(yīng)不及時(shí)、安全需求及功能固化等問(wèn)題日益突出。2014年,Meta(Facebook)面對(duì)傳統(tǒng)BMC開發(fā)周期長(zhǎng)、問(wèn)題處理響應(yīng)慢、黑盒代碼不安全等問(wèn)題,設(shè)計(jì)并開源了其管理固件解決方案,2015年Meta、谷歌、IBM、英特爾、微軟共同發(fā)起成立OpenBMC社區(qū),點(diǎn)燃了管理固件開源開放的星星之火。
對(duì)此,浪潮信息服務(wù)器固件研發(fā)經(jīng)理王興隆補(bǔ)充道:"服務(wù)器管理固件的產(chǎn)業(yè)生態(tài)是在數(shù)據(jù)中心規(guī)模不斷擴(kuò)大的背景下逐漸成熟,而傳統(tǒng)BMC開發(fā)模式封閉、代碼閉源、架構(gòu)陳舊,已無(wú)法滿足大規(guī)模數(shù)據(jù)中心更加精細(xì)化、深層次的管理需求,OpenBMC應(yīng)運(yùn)而生,OpenBMC通過(guò)先進(jìn)的軟件架構(gòu)讓各功能模塊深度解耦,甚至能夠按需加載功能模塊,提升了代碼的可移植性,顯著縮短了固件開發(fā)周期;開源開放讓上下游廠商能夠共同參與貢獻(xiàn),促進(jìn)了產(chǎn)業(yè)合作與發(fā)展。隨著2018年OpenBMC被Linux基金會(huì)接納,行業(yè)對(duì)其認(rèn)可程度逐年提升。"
同時(shí),借助OpenBMC,服務(wù)器、部件等領(lǐng)域的固件創(chuàng)新也在加強(qiáng),三星電子西安電子研究所資深高級(jí)工程師李寧分享了三星和浪潮信息合作的SSD帶外管理創(chuàng)新項(xiàng)目。三星通過(guò)優(yōu)化SSD內(nèi)部架構(gòu),設(shè)計(jì)獨(dú)立的帶外管理控制器監(jiān)控SSD的主控部件,將SSD的管理和主控分離,管理控制器獨(dú)立供電,不僅帶來(lái)更強(qiáng)大的帶外管理能力,控制邏輯也更加可靠。同時(shí)浪潮信息基于OpenBMC實(shí)現(xiàn)BMC與SSD的帶外管理信息交互,實(shí)現(xiàn)了資產(chǎn)信息獲取、SSD健康狀態(tài)監(jiān)控、運(yùn)行日志抓取、主動(dòng)告警等功能特性,相比傳統(tǒng)BMC,明顯提升協(xié)同開發(fā)調(diào)試效率,縮短了開發(fā)周期,加快了產(chǎn)品落地進(jìn)度。
智算崛起 數(shù)據(jù)中心管理固件開放成為剛需
如果說(shuō)數(shù)據(jù)中心的規(guī)?;l(fā)展點(diǎn)燃了BMC固件管理開源開放的"星星之火",那么數(shù)據(jù)中心算力的多元化將讓開放的BMC管理固件形成"燎原之勢(shì)"。劉凌云指出,通用服務(wù)器BMC需管理的硬件主要有CPU、存儲(chǔ)、網(wǎng)絡(luò)、散熱風(fēng)扇等,但在AIGC平臺(tái)上,BMC需要管理的硬件不但數(shù)量多,類型也百花齊放,從之前的單一的GPU卡到現(xiàn)在新興的GPGPU卡、AI加速卡、FPGA卡等各種異構(gòu)加速器,以及其他的通用計(jì)算平臺(tái)。面對(duì)眾多的芯片,需要定義更加開放的BMC管理接口標(biāo)準(zhǔn),以實(shí)現(xiàn)數(shù)據(jù)中心高效管理。
王興隆進(jìn)一步解釋說(shuō):傳統(tǒng)BMC固件架構(gòu)落后,可擴(kuò)展性差,無(wú)法快速適配兼容不同的處理器、加速器。開放的OpenBMC固件基于分層解耦的軟件架構(gòu),功能模塊之間通過(guò)一致的系統(tǒng)總線接口協(xié)議進(jìn)行交互,擴(kuò)展性高,能夠?qū)崿F(xiàn)靈活的模塊化開發(fā),同一套OpenBMC固件代碼能夠同時(shí)兼容多種處理器平臺(tái)、多種異構(gòu)加速器等關(guān)鍵部件,對(duì)于新增部件能夠快速適配兼容,大幅縮短迭代周期,提升開發(fā)效率。
除了多元算力對(duì)BMC固件擴(kuò)展性、定制化的需求,劉凌云還表示,高算力帶來(lái)的高功耗也在推動(dòng)數(shù)據(jù)中心散熱體系變革,風(fēng)冷式、冷板式、浸沒式液冷方案持續(xù)并存,這些都需要BMC的統(tǒng)一管理調(diào)度。面對(duì)超大型互聯(lián)網(wǎng)、人工智能等應(yīng)用場(chǎng)景,新興服務(wù)器硬件種類繁多、快速迭代,OpenBMC已經(jīng)不是錦上添花,而是"非你莫屬"了。
王興隆指出,在異構(gòu)多元算力需求不斷提升的背景下,算力縱向擴(kuò)展瓶頸越來(lái)越明顯,橫向擴(kuò)展成為趨勢(shì),為提升算力資源協(xié)同利用率,浪潮信息設(shè)計(jì)實(shí)現(xiàn)融合架構(gòu)3.0原型系統(tǒng),將通用計(jì)算、異構(gòu)加速計(jì)算、內(nèi)存、存儲(chǔ)、I/O等資源池化,實(shí)現(xiàn)硬件解耦,同時(shí)面向不同應(yīng)用場(chǎng)景需要通過(guò)軟件定義進(jìn)行硬件資源重構(gòu),形成適用于不同應(yīng)用負(fù)載的服務(wù)器系統(tǒng),而OpenBMC為軟硬件協(xié)同承擔(dān)了更多軟件定義的角色。
傳統(tǒng)BMC or OpenBMC,企業(yè)何去何從
OpenBMC勢(shì)不可擋,但是否意味著傳統(tǒng)BMC走向末路了呢?對(duì)此,劉凌云認(rèn)為傳統(tǒng)的BMC和OpenBMC當(dāng)前是兩條技術(shù)路線,適應(yīng)于不同的應(yīng)用場(chǎng)景。中小規(guī)模的數(shù)據(jù)中心用戶關(guān)注業(yè)務(wù)穩(wěn)定性,關(guān)注管理固件的兼容性,對(duì)定制化要求不高,固件管理的技術(shù)投入資源有限,對(duì)技術(shù)類別不敏感,傳統(tǒng)的BMC在這種場(chǎng)景仍然有著廣闊空間。而對(duì)于大型、超大型互聯(lián)網(wǎng)客戶,快速響應(yīng),更高性能、更精細(xì)化的管理、定制化等訴求則更適合采用OpenBMC。目前處理器廠商正在圍繞帶外管理,運(yùn)用OpenBMC更精細(xì)的管理數(shù)據(jù)中心設(shè)備,在故障診斷、預(yù)警、安全等方面進(jìn)行固件技術(shù)創(chuàng)新,以保證較高可用性、可靠性和可管理性。
OpenBMC經(jīng)過(guò)近十年的發(fā)展,已經(jīng)形成較為穩(wěn)定的基礎(chǔ)代碼,國(guó)內(nèi)大型CSP已發(fā)布OpenBMC方案,服務(wù)器廠商也在持續(xù)開發(fā)OpenBMC相關(guān)產(chǎn)品和配套解決方案,在剛剛結(jié)束的ODCC開放數(shù)據(jù)中心產(chǎn)業(yè)峰會(huì)上,浪潮信息發(fā)布了基于OpenBMC的最新服務(wù)器管理固件解決方案,面向通用客戶實(shí)現(xiàn)OpenBMC落地應(yīng)用。
產(chǎn)業(yè)界上下游攜手,加速OpenBMC發(fā)展
出席"大咖來(lái)了"的三位嘉賓一致認(rèn)為OpenBMC是大勢(shì)所趨,數(shù)據(jù)中心管理固件的開源開放將推動(dòng)和強(qiáng)化服務(wù)器、部件、處理器等多方面的協(xié)同,并為數(shù)據(jù)中心高效管理提供更優(yōu)的解決方案。從部件角度,三星未來(lái)將聚焦于存儲(chǔ)部件帶外管理,基于OpenBMC開源代碼進(jìn)行固件創(chuàng)新,提供增強(qiáng)的帶外管理能力,比如產(chǎn)品內(nèi)部各組件監(jiān)控,設(shè)備壽命預(yù)測(cè),智能化故障分析,異?;謴?fù)和設(shè)備認(rèn)證數(shù)據(jù)加密等方面。同時(shí),基于OpenBMC的設(shè)備帶外管理標(biāo)準(zhǔn)化對(duì)推動(dòng)產(chǎn)業(yè)上下游協(xié)同至關(guān)重要,三星攜手浪潮信息在近期的ODCC峰會(huì)中發(fā)布了《服務(wù)器插入式設(shè)備帶外管理白皮書》,希望通過(guò)定義部件管理的軟硬件接口,加速部件與主機(jī)BMC適配效率。
從英特爾角度來(lái)看,OpenBMC最重要的功能就是帶外監(jiān)控和管理,未來(lái)管理會(huì)更加智能化、細(xì)粒度和更安全,從而提升數(shù)據(jù)中心SLA降低TCO。例如內(nèi)存故障預(yù)測(cè)隔離,能顯著降低服務(wù)器故障率;在線無(wú)縫的固件升級(jí),還有對(duì)CPU狀態(tài)性能監(jiān)測(cè)功耗的優(yōu)化管理會(huì)也更加精細(xì),以及對(duì)硬件的保護(hù)提升安全性等等。此外OpenBMC做為開源開放平臺(tái),在GPU卡、節(jié)能散熱等方面建立標(biāo)準(zhǔn)化管理接口也是未來(lái)英特爾研究的方向。
浪潮信息則認(rèn)為OpenBMC的發(fā)展會(huì)更加開放,更廣泛的產(chǎn)品應(yīng)用和更穩(wěn)定的社區(qū)基礎(chǔ)代碼,將吸引更多的上下游廠商參與到社區(qū)的建設(shè)當(dāng)中。同時(shí)OpenBMC將會(huì)更加標(biāo)準(zhǔn)化,當(dāng)前面向用戶側(cè)的管理接口已通過(guò)Redfish規(guī)范進(jìn)行了標(biāo)準(zhǔn)化,但在服務(wù)器內(nèi)部的部件管理標(biāo)準(zhǔn)化程度還不夠,相信OpenBMC將推動(dòng)內(nèi)部管理接口標(biāo)準(zhǔn)化。目前,為了滿足數(shù)據(jù)中心多元化的算力需求,浪潮信息開發(fā)了基于OpenBMC的服務(wù)器管理固件平臺(tái)InBry,并對(duì)接數(shù)據(jù)中心集群管理平臺(tái)InManage,推動(dòng)形成從部件到服務(wù)器到數(shù)據(jù)中心的全生命周期精細(xì)化管理。
未來(lái),OpenBMC產(chǎn)品化應(yīng)用更為廣泛,更多用戶將會(huì)從OpenBMC受益,OpenBMC持續(xù)健康發(fā)展將為數(shù)據(jù)中心產(chǎn)業(yè)的綠色高質(zhì)量發(fā)展創(chuàng)造更大價(jià)值。