北京2022年8月30日 /美通社/ -- 數(shù)據(jù)已經(jīng)成為繼土地、勞動力、資本和技術(shù)之后的第五大生產(chǎn)要素,是當(dāng)代經(jīng)濟社會發(fā)展的基礎(chǔ)資源。存儲作為數(shù)據(jù)載體設(shè)備發(fā)揮著重要作用,既要滿足當(dāng)前全球數(shù)據(jù)量高速增長需求,又要保證數(shù)據(jù)存儲安全可靠、讀寫高效精準(zhǔn),從而為數(shù)據(jù)中心提供"穩(wěn)定的數(shù)據(jù)存力"。
如何提升數(shù)據(jù)存儲的可靠性,避免意外場景下的數(shù)據(jù)丟失,已成為存儲硬件平臺發(fā)展的重大挑戰(zhàn)。浪潮存儲從源頭出發(fā),創(chuàng)造性地提出了冷熱備電智能切換方案,改進存儲系統(tǒng)對BBU單元智能管理方案,踐行綠色低碳理念,加固備電質(zhì)量,增強了數(shù)據(jù)存儲的可靠性。
存儲備電 -- 數(shù)據(jù)存儲安全的保障
當(dāng)前業(yè)界存儲系統(tǒng)通常采用電源PSU(Power Supply Unit)"1+1"冗余供電,在供電之外還配置備用電池BBU(Battery Back-Up Unit),當(dāng)機房市電掉電,存儲系統(tǒng)實時監(jiān)測PSU供電異常,無縫切換到備用電池BBU供電。BBU提供持續(xù)的供電能力,確保存儲系統(tǒng)控制器寫緩存中數(shù)據(jù),完整而安全的寫入非易失性介質(zhì),如HDD、SSD等,避免數(shù)據(jù)丟失。
為保證數(shù)據(jù)存儲的業(yè)務(wù)連續(xù)性,機房市電意外掉電、市電恢復(fù)后能快速恢復(fù)存儲系統(tǒng)的業(yè)務(wù),浪潮存儲對備電設(shè)計標(biāo)準(zhǔn)有嚴(yán)格要求。比如,浪潮存儲在三年產(chǎn)品生命周期內(nèi),備用電池BBU一次充滿電,可滿足兩次掉電數(shù)據(jù)備份要求;又如,滿足存儲系統(tǒng)高可靠性要求時,創(chuàng)新地采用了備用電池BBU冷熱供電切換策略,提高備電的能效和電池的使用壽命,降低BBU電池報廢的數(shù)量,降低對環(huán)境的污染。
高端存儲性能提升,存儲備電挑戰(zhàn)升級
隨著數(shù)據(jù)量爆發(fā)式增長、存儲業(yè)務(wù)復(fù)雜程度提升,存儲硬件平臺正朝著高密度與高性能方向發(fā)展,傳統(tǒng)供備電策略難以支撐存儲系統(tǒng)的穩(wěn)定性要求。高端存儲平臺從系統(tǒng)架構(gòu)到部件性能的升級都伴隨著系統(tǒng)整體功率提升,正常運行時存儲陣列單控制器功率超1700W,掉電時刻控制器快速降低功耗,單控制器功耗仍超過800W;因此單個BBU的電芯節(jié)數(shù)達到12節(jié)(四串三并),才能滿足異常掉電時的備電功耗需求。存儲系統(tǒng)實時獲取BBU充放電次數(shù)與健康狀態(tài),BBU單元檢測自身狀態(tài),如果發(fā)現(xiàn)異常可快速定位及修復(fù),延長BBU電芯的使用壽命,保證BBU供電能力滿足產(chǎn)品的需求。因為存儲系統(tǒng)控制器功耗不斷增大,備用電池BBU的電芯節(jié)數(shù)不斷增加,電芯電壓不平衡或損壞無法正常識別等質(zhì)量隱患逐漸突顯出來;如果沒有支持診斷的BMS(Battery Management System)日志,BBU充電異常、BBU校驗學(xué)習(xí)(評估BBU備電能力是否滿足一次備電需求)異常、BBU供電鏈路偵測異常等問題則無法準(zhǔn)確定位,影響B(tài)BU的故障定位效率及使用壽命;如果備電單元故障未及時發(fā)現(xiàn),異常掉電而BBU不能正常供電,嚴(yán)重時會出現(xiàn)存儲系統(tǒng)丟數(shù)據(jù)的隱患。
浪潮存儲:智能備電管理技術(shù)
浪潮存儲從系統(tǒng)控制端與備電單元端雙管齊下,提出了智能備電管理技術(shù),將存儲系統(tǒng)備電單元有效電量提升30%、使用壽命延長50%。智能備電管理技術(shù)包含BBU單元軟硬一體自診斷方案、存儲系統(tǒng)對BBU的智能管理方案、冷熱備電智能切換方案三部分。通過BBU單元的監(jiān)測電路與自診斷算法,實現(xiàn)了BBU狀態(tài)監(jiān)測與告警管理;通過存儲系統(tǒng)軟件對BBU單元的管理,提升BBU單元故障定位效率和備電系統(tǒng)穩(wěn)定性;通過BBU單元冷備與熱備智能切換,BBU單元電池?fù)p耗降低30%,提高了電池的使用壽命,降低了電池報廢數(shù)量和環(huán)境的污染。
BBU單元軟硬一體自診斷設(shè)計方案
浪潮存儲通過自診斷算法為BBU單元提供精準(zhǔn)高效的狀態(tài)監(jiān)測與異常處理,存儲研發(fā)團隊在設(shè)計前詳細梳理BMS 軟硬件接口寄存器、BBU電芯解耦控制參量、狀態(tài)保護觸發(fā)閾值等,用于監(jiān)測狀態(tài)的分析診斷。硬件設(shè)計BBU 供電路徑偵測電路,實時監(jiān)測BBU供電路徑,跨連接器和板卡不同位置的電壓、電流、功率值,作為自診斷分析依據(jù);軟件設(shè)計BBU單元自診斷算法,BBU單元優(yōu)先查詢電芯物料信息與當(dāng)前狀態(tài)進行初診斷,初診斷無誤后開始對存儲控制信號、充電信號等進行實時記錄,同時分析對外充放電、對內(nèi)校驗學(xué)習(xí)等各種狀態(tài)下的參數(shù)變化情況。如果狀態(tài)參數(shù)異常,則分析異常原因并進行簡單的自適應(yīng)調(diào)參,同時收集異常日志發(fā)送給存儲系統(tǒng)。通過流程化的自診斷,可以在存儲系統(tǒng)業(yè)務(wù)上線前檢出已知的大部分問題,降低存儲系統(tǒng)業(yè)務(wù)上線后BBU單元異常的概率。
突破存儲系統(tǒng)對BBU單元智能管理方案
存儲系統(tǒng)對BBU單元的管理至關(guān)重要,是備電流程順利進行的核心。存儲系統(tǒng)基于BBU單元自診斷的狀態(tài)信息,從以下五方面進行智能備電狀態(tài)監(jiān)測處理:
其一,定期對BBU 供電鏈路偵測,模擬存儲系統(tǒng)供電切換流程,提前識別鏈路隱患。
其二,定期評估BBU單元儲備的電量,判定是否滿足系統(tǒng)一次備電需求,同時累計消除BMS采樣誤差。
其三,存儲系統(tǒng)實時讀取BBU單元電壓與電流、電芯電壓及溫度、充放電MOS管溫度,接近BMS內(nèi)置閾值時報警處理。
其四,充電過程自動監(jiān)測存儲設(shè)備功率,檢測BBU電量是否滿足一次備電需求,實時校準(zhǔn)充電狀態(tài),同時累計充放電次數(shù)。
最后,存儲系統(tǒng)對BBU單元BMS狀態(tài)寄存器狀態(tài)值實時監(jiān)控,出現(xiàn)異常后進入備份供電異常處理模式。
上述智能備電狀態(tài)診斷方案,將潛在異常的識別率提升了1倍;問題診斷完成后,存儲系統(tǒng)對日志進行智能分析,準(zhǔn)確定位出問題源頭,例如BBU電芯異常、BBU 控制模塊異常、存儲系統(tǒng)控制電路異常、系統(tǒng)散熱異常等。
創(chuàng)造性的給出了一種冷熱備電智能切換方案
浪潮存儲系統(tǒng)對供電鏈路定期偵測、BBU備電能力定期評估,提前識別供電隱患,并基于此進行供電狀態(tài)智能分析,設(shè)計了BBU單元冷備、熱備智能切換方案。在1+1冗余,雙PSU都正常狀態(tài)下采用冷備以降低備電損耗,存儲系統(tǒng)通過對輸出電壓電流、PWM驅(qū)動波形、溫度采樣值等參數(shù)的智能分析,提前對PSU的工作狀態(tài)進行預(yù)測,在單 PSU出現(xiàn)異常后,切換為熱備模式,以保證市電異常時存儲系統(tǒng)無縫切換為BBU供電。浪潮存儲打破了傳統(tǒng)熱備電技術(shù)對BBU壽命損耗的弊端,智能供電方案中熱備份供電時間占比不超過10%,BBU單體待機功耗由原來的熱備3W.h, 減小至0.3W.h,一年內(nèi)充電次數(shù)也由450次減少至50次左右,BBU使用壽命由不到一年延長至三年以上,使得廢棄BBU對環(huán)境污染程度大幅度降低,貫徹了綠色設(shè)計理念。
浪潮存儲秉承"云存智用 運籌新數(shù)據(jù)"的新存儲理念,深耕存儲平臺底層硬件的創(chuàng)新研發(fā),從源頭做起全方位加固存儲產(chǎn)品備電質(zhì)量,充分發(fā)揮硬件平臺的數(shù)據(jù)備份處理優(yōu)勢,貫徹落實綠色節(jié)能設(shè)計理念,打造具備極致可靠性的高端存儲產(chǎn)品,保障企業(yè)海量數(shù)據(jù)存得高效、存得可靠,護航數(shù)字經(jīng)濟發(fā)展。