2023智博會(huì)產(chǎn)品金獎(jiǎng)?lì)C給AIStation，大模型算力平臺(tái)效率受關(guān)注

浪潮信息

2023-06-27 15:44 3575

北京2023年6月27日 /美通社/ -- 2023年6月25日，2023全球人工智能產(chǎn)品應(yīng)用博覽會(huì)在蘇州開(kāi)幕。浪潮信息智能業(yè)務(wù)生產(chǎn)創(chuàng)新平臺(tái)AIStation憑借領(lǐng)先的資源調(diào)度與平臺(tái)管理能力，有效提升大模型算力平臺(tái)使用效率，榮獲智博會(huì)核心獎(jiǎng)項(xiàng)"產(chǎn)品金獎(jiǎng)"。此次獲獎(jiǎng)，不僅體現(xiàn)了AIStation在大模型算力與業(yè)務(wù)支撐方面的領(lǐng)先性，也體現(xiàn)了產(chǎn)業(yè)對(duì)大模型算力平臺(tái)效率的高度關(guān)注。

當(dāng)前，以大模型為代表的生成式AI技術(shù)正在加速發(fā)展并革新各行業(yè)智能轉(zhuǎn)型路徑。生成式AI創(chuàng)新需要基于海量數(shù)據(jù)集，在擁有成百上千加速卡的AI服務(wù)器集群上對(duì)千億級(jí)參數(shù)的AI大模型進(jìn)行分布式訓(xùn)練。如何發(fā)揮大模型算力平臺(tái)效能、抑制性能損耗，以高效完成AI大模型的訓(xùn)練部署，已成為AIGC時(shí)代的新挑戰(zhàn)。

作為專為人工智能開(kāi)發(fā)和部署提供全流程支持的端到端平臺(tái)，AIStation能夠以強(qiáng)大的資源調(diào)度和管理能力助力客戶加速AI大模型開(kāi)發(fā)與部署，通過(guò)對(duì)計(jì)算資源、數(shù)據(jù)資源、深度學(xué)習(xí)軟件棧資源進(jìn)行統(tǒng)一管理，有效提升大模型AI算力集群的使用效率。

一站式管理、毫秒級(jí)調(diào)度，集群利用率達(dá)70%

大模型訓(xùn)練需要構(gòu)建包含計(jì)算、網(wǎng)絡(luò)、存儲(chǔ)、框架等在內(nèi)的系統(tǒng)性分布式訓(xùn)練環(huán)境，傳統(tǒng)的分散化管理不僅門檻高、效率低，且缺少針對(duì)性優(yōu)化的整體調(diào)度系統(tǒng)，導(dǎo)致大模型計(jì)算平臺(tái)的整體協(xié)同性較差，訓(xùn)練算力效率低。

針對(duì)分布式訓(xùn)練計(jì)算規(guī)模大、系統(tǒng)性強(qiáng)的特點(diǎn)，AIStation實(shí)現(xiàn)了異構(gòu)算力集群的統(tǒng)一池化管理，通過(guò)自研分布式任務(wù)自適應(yīng)系統(tǒng)將訓(xùn)練底層的計(jì)算、存儲(chǔ)、網(wǎng)絡(luò)環(huán)境自動(dòng)化配置，并提供自定義修改基本超參數(shù)功能。通過(guò)多種資源高效管理和調(diào)度策略，AIStation能實(shí)現(xiàn)萬(wàn)卡集群的毫秒級(jí)調(diào)度，提升整體資源利用率到70%以上。

同時(shí)，AIStation集成主流的大模型訓(xùn)練框架，依托容器化技術(shù)，能夠?qū)⑦\(yùn)行環(huán)境、框架適配過(guò)程標(biāo)準(zhǔn)化、模塊化，支持秒級(jí)構(gòu)建運(yùn)行環(huán)境，保障AI開(kāi)發(fā)和AI業(yè)務(wù)的高效運(yùn)行。

瓶頸優(yōu)化、穩(wěn)健容錯(cuò)，全流程加速大模型訓(xùn)練

針對(duì)大規(guī)模分布式訓(xùn)練過(guò)程中遇到的算力網(wǎng)絡(luò)搭建、數(shù)據(jù)加速、網(wǎng)絡(luò)通信優(yōu)化等瓶頸，AIStation通過(guò)鏡像分發(fā)加速、數(shù)據(jù)緩存加速、網(wǎng)絡(luò)拓?fù)湔{(diào)度、資源動(dòng)態(tài)彈性伸縮等特性，在提高計(jì)算資源利用率的同時(shí)加速整個(gè)訓(xùn)練過(guò)程。其中，AIStation通過(guò)數(shù)據(jù)緩存機(jī)制可讓模型訓(xùn)練效率獲得200%-300%的提升，并能夠根據(jù)節(jié)點(diǎn)的數(shù)據(jù)緩存情況自動(dòng)調(diào)度訓(xùn)練任務(wù)，避免訓(xùn)練數(shù)據(jù)重復(fù)下載，節(jié)省數(shù)據(jù)加載時(shí)間，與自研調(diào)度系統(tǒng)配合后，分布式訓(xùn)練線性加速比能夠高達(dá)0.9，有效抑制多節(jié)點(diǎn)協(xié)同的性能損耗。

健壯性與穩(wěn)定性是目前高效完成大模型訓(xùn)練的強(qiáng)要求。對(duì)此，AIStation通過(guò)提供全生命周期管理、故障容錯(cuò)、集群監(jiān)控運(yùn)維等一體化能力，能夠?qū)崿F(xiàn)訓(xùn)練異常和故障的全面檢測(cè)和自動(dòng)處理，有效縮短斷點(diǎn)續(xù)訓(xùn)時(shí)間，降低復(fù)雜度，以持續(xù)穩(wěn)定的訓(xùn)練降低大模型訓(xùn)練成本和周期。

高效調(diào)用，釋放大模型應(yīng)用價(jià)值

針對(duì)大模型訓(xùn)練完成后的應(yīng)用部署，AIStation實(shí)現(xiàn)訓(xùn)練和推理的全打通，加快模型應(yīng)用落地。針對(duì)大模型實(shí)際應(yīng)用中的調(diào)用突發(fā)性，AIStation可根據(jù)推理服務(wù)資源需求的變化及時(shí)調(diào)整資源配給，根據(jù)實(shí)時(shí)業(yè)務(wù)的請(qǐng)求量實(shí)現(xiàn)秒級(jí)服務(wù)擴(kuò)縮容，可支持百萬(wàn)級(jí)高并發(fā)的大模型AI推理服務(wù)場(chǎng)景，服務(wù)響應(yīng)平均延遲低于1ms，突發(fā)的訪問(wèn)高峰的響應(yīng)效率提升50%。

目前，AIStation已經(jīng)在2457億參數(shù)的"源"大模型訓(xùn)練實(shí)踐中得到有效驗(yàn)證，支撐 "源"大模型的訓(xùn)練算力效率達(dá)44.8%，高于GPT-3的21.3%。同時(shí)，某大型商業(yè)銀行基于AIStation打造的并行運(yùn)算集群，憑借領(lǐng)先的大規(guī)模分布式訓(xùn)練支撐能力，榮獲2022IDC"未來(lái)數(shù)字基礎(chǔ)架構(gòu)領(lǐng)軍者"獎(jiǎng)項(xiàng)。未來(lái)， AIStation平臺(tái)將持續(xù)為各行業(yè)的大模型開(kāi)發(fā)與部署提供高效的算力平臺(tái)管理能力，加速AIGC技術(shù)迭代革新。

消息來(lái)源：浪潮信息