北京2024年9月24日 /美通社/ -- 只要輸入提示文字,大模型就能給我們高度擬真、準(zhǔn)確的圖像,相信很多人已經(jīng)體驗到這種前沿且酷炫的圖像創(chuàng)作方式,這背后其實是能力強大的圖像生成模型做支撐。
目前諸如Sora等前沿圖像生成模型,基于的主體架構(gòu)都是Diffusion Transformer(DiT)。DiT可以將生成模型擴展到更大的模型規(guī)模,從而實現(xiàn)高質(zhì)量的圖像生成。然而更大的模型規(guī)模導(dǎo)致訓(xùn)練成本飆升,為此,南開大學(xué)計算機學(xué)院研發(fā)了Masked Diffusion Transformer(MDT)圖像生成模型,相比DiT訓(xùn)練速度提升10倍以上,實現(xiàn)了ImageNet Benchmark上1.58的FID score,再次刷新SOTA圖像生成質(zhì)量和學(xué)習(xí)速度。相關(guān)論文已在計算機視覺頂級會議ICCV 2023(計算機視覺國際大會)發(fā)表。
MDT開發(fā)和訓(xùn)練的背后需要強大的AI算力資源支持,為了建設(shè)滿足MDT開發(fā)和訓(xùn)練需求的AI算力平臺,南開大學(xué)與浪潮信息合作,借助浪潮信息AI服務(wù)器構(gòu)建強大算力資源池,利用AIStation智能業(yè)務(wù)生產(chǎn)創(chuàng)新平臺實現(xiàn)算力高效分發(fā),提高計算資源利用率,加速MDT圖像生成模型訓(xùn)練。
大模型創(chuàng)新面臨海量算力資源挑戰(zhàn)
DiT雖然在圖像生成領(lǐng)域取得了顯著的成功,但是DiT往往難以高效地學(xué)習(xí)圖像中物體各部分之間的語義關(guān)系,這一局限性導(dǎo)致了訓(xùn)練過程的低收斂效率,經(jīng)常需要數(shù)十萬次地迭代訓(xùn)練才能生成高質(zhì)量的圖像。為了降低訓(xùn)練成本,提升訓(xùn)練效率,南開大學(xué)計算機學(xué)院程明明教授團隊開展了大模型領(lǐng)域的深度研究,MDT就是重要科研成果之一。MDT利用mask modeling表征學(xué)習(xí)策略,增強DiT對上下文語義信息的學(xué)習(xí)能力,進而提升圖像生成的質(zhì)量和學(xué)習(xí)速度。
大模型技術(shù)進步的背后離不開強大算力的支持,為了進一步提升MDT的開發(fā)和訓(xùn)練效率,同時實現(xiàn)算力成本效益的最大化,南開大學(xué)對算力基礎(chǔ)設(shè)施的建設(shè)提出了如下訴求:
需要強大的AI算力資源支持。以程明明教授團隊為例,研發(fā)高峰期甚至需要付費租用更昂貴的云算力資源,特別是按照新引進的團隊規(guī)模,現(xiàn)有設(shè)備的峰值算力已經(jīng)無法滿足科研需求,亟需構(gòu)建高質(zhì)量的算力資源池;
快速構(gòu)建大模型開發(fā)環(huán)境,提高模型訓(xùn)練效率。大模型訓(xùn)練環(huán)境配置、框架匹配與參數(shù)調(diào)整經(jīng)常會耗費大量的人力與物力,還可能會碰到環(huán)境算法配置復(fù)雜、模型結(jié)構(gòu)多樣適配繁瑣等問題,這會耽誤寶貴的模型研發(fā)時間;
算力資源高效調(diào)度,降低算力使用成本。大模型訓(xùn)練的不同任務(wù)、不同階段對于算力的需求有著明顯的波動性,如果無法精準(zhǔn)調(diào)度算力資源,不僅會造成冗余算力在平常時段的閑置浪費,導(dǎo)致算力成本大幅提升,也很難滿足資源高效管理調(diào)度的需求。
提升AI算力利用效率 加快大模型開發(fā)
南開大學(xué)采用了浪潮信息提供的算力方案,該方案包括浪潮信息高性能AI服務(wù)器、網(wǎng)絡(luò)交換機、存儲系統(tǒng),滿足模型訓(xùn)練過程中對算力資源的需求。同時,為了最大化利用AI算力資源、提升大模型開發(fā)效率,南開大學(xué)利用AIStation平臺實現(xiàn)AI算力資源的高效調(diào)度。
全新升級的AIStation具備全面的大模型流程支持能力,幫助用戶低門檻構(gòu)建大模型微調(diào)任務(wù),提供標(biāo)準(zhǔn)、安全的大模型推理服務(wù),并針對大模型業(yè)務(wù)資源需求優(yōu)化了算力管理功能,助力南開大學(xué)快速開展大模型業(yè)務(wù)創(chuàng)新與落地,獲得穩(wěn)定、高效、易用、高精度的大模型服務(wù)。
浪潮信息AIStation為大模型訓(xùn)練提供有力支持,助力南開大學(xué)的大模型開發(fā)能力:
構(gòu)建端到端的大模型開發(fā)流程:AIStation支持端到端的大模型開發(fā)流程,支持TensorFlow、PyTorch、MxNet等主流大模型框架以及GoogleNet/VGG/ResNet等網(wǎng)絡(luò)模型,一臺GPU服務(wù)器可運行多種框架環(huán)境,并實現(xiàn)快速切換。AIStation通過自動環(huán)境部署和AI工作流,將MDT的開發(fā)準(zhǔn)備時間大幅縮短,幫助南開大學(xué)有效降低構(gòu)建大模型開發(fā)環(huán)境和訓(xùn)練任務(wù)等門檻。
提升AI算力資源利用率:AIStation支持更加細粒度的分配調(diào)度算力,幫助南開大學(xué)為每項AI訓(xùn)練任務(wù)合理匹配AI算力資源,實現(xiàn)資源的高效利用。針對MDT等優(yōu)先級較高的應(yīng)用,AIStation可設(shè)置GPU、CPU、內(nèi)存數(shù)量,硬件資源隔離,應(yīng)用環(huán)境獨立,各應(yīng)用之間互不影響。
實現(xiàn)算力資源快速調(diào)度:AIStation簡化了算力調(diào)度和模型開發(fā)流程,實現(xiàn)了業(yè)務(wù)按需使用、秒級下發(fā),并實現(xiàn)大模型實驗室不同團隊共用流程、共享環(huán)境,開發(fā)者與算力高效協(xié)同。平臺還提供了實時、可視化的數(shù)據(jù)支持,支持訓(xùn)練進度、訓(xùn)練結(jié)果、資源利用情況等數(shù)據(jù)的可視化展示,助力南開大學(xué)精準(zhǔn)進行算力調(diào)度。
浪潮信息提供的算力解決方案,為南開大學(xué)程明明教授團隊在圖像生成領(lǐng)域的研究提供了強大的算力支持和高效的資源調(diào)度能力,顯著提升了MDT圖像生成模型的訓(xùn)練速度和圖像質(zhì)量,對于藝術(shù)創(chuàng)作、游戲開發(fā)乃至醫(yī)學(xué)影像分析等領(lǐng)域都有重大潛力。