北京2023年12月4日 /美通社/ -- 2023年生成式AI和大模型的爆發(fā),讓我們面對一個變化更加快速也更加激動人心的時代,隨著新質生產(chǎn)力和算力基礎設施高質量發(fā)展的提出,算力和存儲基礎設施也面臨著創(chuàng)新與破局,如何在生成式AI和大模型時代,更好地幫助企業(yè)實現(xiàn)數(shù)字化創(chuàng)新?
11月29日,由DOIT傳媒舉辦的"數(shù)智創(chuàng)新·AI未來"—2023中國數(shù)據(jù)與存儲峰會在北京成功舉辦,浪潮信息存儲產(chǎn)品線副總經(jīng)理劉希猛和分布式存儲總經(jīng)理姜樂果受邀參會,分享了存儲在生成式AI和大模型上的創(chuàng)新理念與實踐,與合作伙伴和客戶共同探討通過創(chuàng)新發(fā)展應對快速變化的新時代。
新場景:數(shù)聚AI加速企業(yè)向智能化場景變革
生成式AI和大模型與千行百業(yè)進行了全面的融合,帶來了自動駕駛、智能制造、智慧醫(yī)療等AI+創(chuàng)新應用場景,這些新的應用場景將加速傳統(tǒng)產(chǎn)業(yè)向智能化的變革。
千行百業(yè)的AI+創(chuàng)新應用帶來了數(shù)據(jù)爆發(fā)式的增長,數(shù)據(jù)要素在產(chǎn)業(yè)智能化的過程中發(fā)揮著重要作用。IDC最新發(fā)布的數(shù)據(jù)顯示,中國數(shù)據(jù)量規(guī)模將從2022的23.88ZB增長至2027年的76.6ZB,增長幅度為全球第一,其中企業(yè)數(shù)據(jù)量占據(jù)70%,而僅有24%的數(shù)據(jù)被用于分析或AI決策,這意味著企業(yè)將有更大的空間來挖掘數(shù)據(jù)價值。
中國非常重視數(shù)據(jù)要素的作用,發(fā)布了如《算力基礎設施高質量發(fā)展行動計劃》、《數(shù)據(jù)要素白皮書》、《生成式人工智能服務暫行方法》等一系列政策,推動企業(yè)在激活數(shù)據(jù)要素潛能和加速人工智能領先等方面的發(fā)展。
在AI 時代,原始數(shù)據(jù)呈現(xiàn)出多源多態(tài)的趨勢,包括文本、圖像、音頻、視頻等有感數(shù)據(jù)以及激光、毫米波、紅外線等無感數(shù)據(jù),會產(chǎn)生TB級乃至PB級多態(tài)數(shù)據(jù),這一趨勢給數(shù)據(jù)的存儲、管理和應用帶來了新的需求和挑戰(zhàn)。
這些新的需求和挑戰(zhàn)體現(xiàn)在巨量多模態(tài)數(shù)據(jù)、超大讀寫帶寬、超高讀寫IOPS和全生命周期管理四個方面。姜樂果表示,隨著訓練模型從LLM(語言)、ALM(音頻)、CV(計算視覺)、VL(多模態(tài))到FMLM(混合模態(tài)),對數(shù)據(jù)存儲的要求從PB級到EB級容量需求,從100GB帶寬到TB級帶寬的性能訪問要求,同時還要求在多源異構數(shù)據(jù)之間實現(xiàn)快速轉換與傳輸,實現(xiàn)生命的全生命周期管理,以及數(shù)據(jù)的安全可靠。
新存儲:分布式融合存儲助力企業(yè)實現(xiàn)破局創(chuàng)新
面對AI時代多源多態(tài)的數(shù)據(jù)挑戰(zhàn),企業(yè)需要支持多種架構、具有持久性、靈活性的數(shù)據(jù)基礎設施,來部署和實施生成式AI的創(chuàng)新應用。
浪潮信息存儲一直秉持"分層解耦"的理念,提供從數(shù)據(jù)中心、硬件平臺、大模型智算軟件棧OGAI和基礎大模型完整的全棧解決方案,以應對生成式AI和大模型時代的全面需求和挑戰(zhàn)。其中解決數(shù)據(jù)多模多態(tài)需求和挑戰(zhàn)的就是分布式融合存儲平臺。
浪潮信息存儲面向生成式AI的分布式融合存儲解決方案結合生成式AI和大模型的數(shù)據(jù)采集、數(shù)據(jù)準備、數(shù)據(jù)訓練、數(shù)據(jù)推理和數(shù)據(jù)歸檔的五個階段,由同一套存儲提供端到端的數(shù)據(jù)流支持流程,滿足面向文本、音頻、圖像、視頻、代碼以及多模態(tài)和全模態(tài)的模型的需求,具有極致融合、極致容量、極致性能和極致管理四大特點。
極致融合是面向海量、多源、異構非結構化數(shù)據(jù)場景,融合多種存儲介質、多協(xié)議實時互訪互通、系統(tǒng)扁平擴展,可以用一套存儲實現(xiàn)多模態(tài)場景應用;極致容量是從PB級到EB級甚至是ZB級,通過多種容量算法的加持,讓存儲空間利用達到最優(yōu),讓客戶的投資收益最大化;極致性能是通過對存儲性能的極致提升,帶來了超大帶寬和超高IOPS,滿足了生成式AI和大模型場景對存儲的苛刻要求;極致管理提供了閃存、磁盤、磁帶、光盤四種介質,以及提供了熱溫冷冰四種存儲資源,實現(xiàn)了資源的互通,可以實現(xiàn)數(shù)據(jù)全生命周期的管理。
劉希猛認為,在非結構化數(shù)據(jù)爆發(fā)的生成式AI和大模型時代,無論基于高性能文件、流式對象還是原生大數(shù)據(jù)的智能化應用,浪潮信息的分布式存儲平臺都將成為企業(yè)簡化IT部署和實施生成式AI創(chuàng)新的關鍵支撐。
新實踐:在源大模型和企業(yè)AIGC上的創(chuàng)新實踐
作為全球領先的IT基礎設施產(chǎn)品、方案及服務提供商,浪潮信息已經(jīng)建立了面向大模型應用場景的整體解決方案。
2023年10月,浪潮信息幫助中科大升級其校級"融合計算平臺",部署了25個GPU服務器節(jié)點和40個分布式融合存儲節(jié)點,來滿足不同學科、領域產(chǎn)生的海量多模態(tài)數(shù)據(jù)需求,助力AI驅動下的高水平科研創(chuàng)新。
在助力企業(yè)應用生成式AI和大模型實現(xiàn)數(shù)字化創(chuàng)新上,浪潮信息不僅提供了數(shù)據(jù)中心和硬件平臺,還基于數(shù)據(jù)基礎設施的領先性,為企業(yè)提供了大模型智算軟件棧OGAI和基礎大模型"源2.0"。
劉希猛介紹,大模型智算軟件棧OGAI"元腦生智"是浪潮信息面向以大模型為核心技術的生成式AI開發(fā)與應用場景,提供從集群系統(tǒng)環(huán)境部署到算力調度保障和大模型開發(fā)管理的全棧全流程的軟件,從而降低大模型算力系統(tǒng)的使用門檻、優(yōu)化大模型的研發(fā)效率,保障大模型的生產(chǎn)與應用。
源大模型是浪潮信息存儲支持生成式AI和大模型的最佳實踐?;诶顺毙畔⒋竽P驼w方案的"源2.0"大模型已正式發(fā)布,并全面開源,這也將會更好地滿足企業(yè)大模型開發(fā)和應用的需求,推動企業(yè)的應用創(chuàng)新。
在"源1.0"中文語言大模型的訓練中,AS13000就采用最新硬件平臺,搭載全閃SSD和高速IB網(wǎng)絡,支撐"源1.0"的訓練過程高效完成。在近期發(fā)布的"源2.0"大模型中,浪潮信息存儲更是作為模型訓練的基座,為數(shù)據(jù)的采集、預處理、訓練和歸檔起到了不可忽視的助力,高靈活可擴展的容量為"源2.0"獲取12個PB中文數(shù)學數(shù)據(jù)提供了堅實的后盾,使模型訓練在容量方面不存在瓶頸。
浪潮信息存儲此次獲得了"2023年度高端存儲產(chǎn)品金獎"和"2023年年度存儲技術創(chuàng)新獎"。在過去的一年,浪潮信息存儲實現(xiàn)了金融行業(yè)的六大行、股份制、城商行等用戶的全面突破。
浪潮信息未來將會繼續(xù)秉持著創(chuàng)新的服務理念,基于浪潮信息的基礎平臺能力和源自JDM的存儲場景共同體定制能力,持續(xù)將先進的產(chǎn)品、技術、解決方案帶給企業(yè),與客戶和合作伙伴一起攜手共行,幫助企業(yè)加快實現(xiàn)數(shù)字化轉型和創(chuàng)新,加速實現(xiàn)高質量發(fā)展,服務未來數(shù)字化轉型。