北京2024年7月9日 /美通社/ -- 今年五月,在美國波士頓舉行的一年一度 THINK 大會上,IBM宣布了watsonx 平臺的幾項新的更新和新推出的數(shù)據(jù)與自動化功能,旨在使人工智能(AI)對企業(yè)而言更具開放性、成本效益與靈活性。為了幫助中國客戶和合作伙伴進一步了解這些新功能的業(yè)務(wù)價值,IBM中國科技事業(yè)部的數(shù)據(jù)與人工智能資深技術(shù)專家吳敏達撰文做了以下解讀。
IBM專家觀點: 硬幣的兩面
作者:吳敏達
IBM科技事業(yè)部 數(shù)據(jù)與人工智能資深技術(shù)專家
引言
IBM Think 是年度盛會,每年都會有令人興奮的新技術(shù)推出。作為一家在人工智能(AI)領(lǐng)域有著深厚積淀的百年企業(yè),IBM在今年五月的 Think 大會上宣布了 watsonx 平臺上的新功能,并且在六月發(fā)布了這些新功能的產(chǎn)品和版本。從這些新發(fā)布中我看到了硬幣的兩面,看到了IBM 在 AI 實踐中的成熟思考。
AI 從創(chuàng)新技術(shù)走向商業(yè)價值需要全面整體地通盤考慮,并不是單一技術(shù)就能解決的,這會包含很多的兩面性問題,而這些兩面性又是相輔相成,最后構(gòu)成企業(yè)自己的最佳實踐。比如,AI 技術(shù)要與咨詢服務(wù)相輔相成,重塑利用 AI 開展業(yè)務(wù);有效的 AI 模型,需要安全可靠的管控,啟用可信任、透明且可解釋的數(shù)據(jù)和 AI 工作流程。
“此兩者同出而異名,同謂之玄;玄之又玄,眾妙之門”,只有把硬幣的兩面充分結(jié)合,才能讓企業(yè)真正從生成式 AI 中獲益。本文試圖結(jié)合 Think 2024 帶來的產(chǎn)品最新能力來解剖這些兩面性,幫助理解 watsonx 解決方案獨特的價值和魅力。
分與合
企業(yè)級 AI 應(yīng)用的未來在于開放和開源,在過去一年中可以看到國內(nèi)外大模型百花齊放。社區(qū)開源可以讓大模型變得更有活力,企業(yè)有更多的可供選擇的基礎(chǔ)大模型,這是“分”的好處。但是硬幣的另一面,也要考慮“合”的問題,需要讓社區(qū)方便地協(xié)作并更新現(xiàn)有的大模型,而不是創(chuàng)建多個克隆,依然處于“分”的狀態(tài)?,F(xiàn)在HuggingFace 上有超過兩萬個 llama 模型分支,這也證明缺少好的方法讓社區(qū)協(xié)作為大模型做出貢獻,可以想像如果這兩萬個分支能合作在一起,將會產(chǎn)生更強大的模型。
其實這個問題不僅僅在社區(qū)存在,企業(yè)應(yīng)用也是一樣,一家公司希望跨部門在企業(yè)內(nèi)部做大模型的迭代升級,希望利用內(nèi)部獲取的技能和知識進行更新。如何跨部門內(nèi)部獲取技能,重復(fù)使用技能,如果不解決“合”的問題,各部門用自己的大模型各自為政,不僅成本高,知識也無法共享。
在Think 2024大會上,IBM 和 紅帽聯(lián)合推出了 InstructLab 這一首創(chuàng)的模型對齊技術(shù),這是圍繞大模型推動開源創(chuàng)新的革命性方法,可將開源社區(qū)的資源直接引入大語言模型。與此同時,watsonx.ai 也最新引入 InstructLab 來解決“分”與“合”的問題,亮點是易于理解、結(jié)構(gòu)良好的分類法,它是一個根據(jù)共享特征或關(guān)系將實體分類和組織為層次類別的分類樹。 InstructLab 分為三個主要分支:知識、核心技能和組合技能。 例如,在這個企業(yè)財務(wù)領(lǐng)域知識的例子中,企業(yè)可以自己添加自己的知識分類,葉節(jié)點就是企業(yè)自己的知識文檔,可以是手冊等文檔。用分類驅(qū)動的方法取代了原來在“分”時候的隨機選擇,通過關(guān)注每個葉節(jié)點內(nèi)的特定企業(yè)示例,從而保證“合”的多樣性和模型質(zhì)量。
在 watsonx.ai 使用 InstructLab 有四個步驟:首先選擇合適的大模型進行嘗試,找到不足的知識或技能,并可以通過模型的訓(xùn)練分類法標(biāo)簽看到知識分類和每個分類的知識問答示例。比如以下圖示的例子里看到的是有關(guān) IBM 歷史的知識以及在知識分類的位置。
然后添加知識或技能,并生成訓(xùn)練數(shù)據(jù)。訓(xùn)練數(shù)據(jù)立足于源材料,根據(jù)與新主題相關(guān)的特定文檔、手冊或書籍生成問題和答案,這確保了信息準(zhǔn)確且來源可靠。在評估和驗證階段,模型充當(dāng)評估器,檢查生成的響應(yīng)是否忠實于原始材料。 這樣就能保持新知識的完整性和準(zhǔn)確性,最后再學(xué)習(xí)新的知識和技能“合”成新的模型。
解決“分”與“合”的問題,可以幫助企業(yè)的大語言模型與最新的技能和知識保持同步,InstructLab 可以幫助企業(yè)獲得最新的社區(qū)貢獻技能并保持最新狀態(tài)。很多企業(yè)希望了解訓(xùn)練大型語言模型需要做些什么,以便能夠更有效地調(diào)整模型,watsonx.ai 分類法探索器可以幫助 AI 開發(fā)人員了解訓(xùn)練模型所需的技能和知識結(jié)構(gòu),并能夠輕松識別差距。
IBM watsonx Code Assistant for Z 使用 InstructLab 對 COBOL 編程語言轉(zhuǎn) Java 進行訓(xùn)練相較于傳統(tǒng)方法訓(xùn)練,從原來需要9個月、14次迭代的過程減少為 1周、1次迭代,通過這一方法,代碼轉(zhuǎn)化效能提升了20%。
縱與橫
企業(yè)從生成式 AI 的試驗階段轉(zhuǎn)向生產(chǎn)階段, 通常有“縱”與“橫”兩種消費模式:“縱”是從應(yīng)用出發(fā),企業(yè)采用預(yù)打包的AI 解決方案;“橫”是從平臺出發(fā),企業(yè)基于工具平臺來構(gòu)建自有 AI 應(yīng)用。
人工智能助手就是為“縱”的需求而生的,是針對企業(yè)最關(guān)注的特定領(lǐng)域量身定制的開箱即用的應(yīng)用:代碼現(xiàn)代化應(yīng)用 watsonx Code Assistant、重塑客戶服務(wù)的應(yīng)用 watsonx Assistant、工作流程自動化應(yīng)用 watsonx Ochestrate 和智能對答業(yè)務(wù)分析應(yīng)用 watsonx BI Assistant。通過部署人工智能助手,企業(yè)可以利用自然語言理解和機器學(xué)習(xí)技術(shù)來自動化業(yè)務(wù)流程,將各種數(shù)據(jù)轉(zhuǎn)化為個性化的見解和及時的自動化操作,從而為團隊提供所需的專業(yè)知識,達成更高水平的績效,包括更快回應(yīng)和解決客服問題,提高開發(fā)人員工作效率等。
watsonx BI Assistant 是最新推出的人工智能業(yè)務(wù)分析助手,提供真正的自助分析同時保持數(shù)據(jù)一致性、治理和可組合的全棧解決方案。它的底層是接受過企業(yè)相關(guān)內(nèi)容訓(xùn)練和可信的大模型;語義自動化層可以自動理解數(shù)據(jù)并構(gòu)建語義模型,根據(jù)值得信賴且經(jīng)過行業(yè)驗證的業(yè)務(wù)詞匯表訓(xùn)練大模型以豐富元數(shù)據(jù)的語義。指標(biāo)目錄定義并發(fā)布分析指標(biāo),能夠提取第三方數(shù)據(jù)模型和語義層中定義的指標(biāo)。最后以自然語言對話方式,零學(xué)習(xí)曲線的體驗為業(yè)務(wù)用戶提供高級分析和個性化洞察的能力。
比如提問:“今年每個市場所有產(chǎn)品的收入是多少?”,watsonx 助手不僅能給出數(shù)據(jù)和報表,還能給出洞察:“新款 Tablet-5 出人意料地增長了 10%,英國市場增長了 15%”,最后會根據(jù)數(shù)據(jù)給出行動指導(dǎo):“建議將資源轉(zhuǎn)移到這些增長領(lǐng)域”。
watsonx Code Assistant 是不斷發(fā)展的一系列代碼助手,均由專為代碼生成而設(shè)計的 IBM Granite 模型提供支持,不僅有廣泛的客戶采用,而且 IBM內(nèi)部也利用該能力進行更有效地進行軟件開發(fā)。適用于 Ansible Lightspeed、主機的 COBOL和 Java 的代碼助手,因為專注所以專業(yè),開箱即用地提供基于特定編程語言的預(yù)訓(xùn)練模型,以確保代碼生成的可信和準(zhǔn)確。
watsonx 最核心的產(chǎn)品集watsonx.data、watsonx.ai、watsonx.governance 就是解決“橫”的需求,提供完整的平臺工具。企業(yè)可以使用 wasonx 平臺根據(jù)特定業(yè)務(wù)數(shù)據(jù)、專業(yè)知識對模型進行調(diào)整。隨著時間的推移,它變得越來越專業(yè),對業(yè)務(wù)也越來越有價值。由于企業(yè)可以控制平臺、 流程和數(shù)據(jù),結(jié)合強有力的人工智能治理能力,企業(yè)累積的價值隨時間推移變得越來越大。
在實際的企業(yè)自己的最佳實踐中,“縱”與“橫”往往會交錯在一起,watsonx 在打造這一體系的時候也是采用同樣的技術(shù)架構(gòu),每個人工智能助手都是構(gòu)建在 watsonx 平臺上的應(yīng)用程序,這使得企業(yè)在任何階段都能夠無縫疊加應(yīng)用或平臺的能力。最終企業(yè)要無感知地應(yīng)用人工智能,SDK 和 API 也是很重要的環(huán)節(jié),所有的人工智能都是嵌入式的,“縱”與“橫”的體系中間是通過生態(tài)系統(tǒng)整合在一起的。
知與行
企業(yè)采用人工智能技術(shù)的目的是運用,所以“知”“行”合一變得尤為重要。 在大模型時代,企業(yè)的大模型是數(shù)據(jù)的表現(xiàn)形式,這是人工智能模型的本質(zhì),也是企業(yè)的競爭優(yōu)勢,不要外包它,而應(yīng)該保護它。模型和數(shù)據(jù)都是企業(yè)最重要的資產(chǎn),IBM Knowledge Catalog 就是“知”的部分:它是 AI 時代的智能數(shù)據(jù)目錄,可幫助企業(yè)采取智能自助的方式發(fā)現(xiàn)數(shù)據(jù)、模型等。
Knowledge Catalog 最新采用大模型能力來豐富元數(shù)據(jù)以實現(xiàn)分類自動化,生成數(shù)據(jù)描述以解釋數(shù)據(jù)屬性和值,生成數(shù)據(jù)名稱并將業(yè)務(wù)術(shù)語映射到列,可以通過對話和搜索進行知識目錄中的數(shù)據(jù)查找和操作。
最新發(fā)布 IBM Data Product Hub 是“行”的部分:它是數(shù)據(jù)和模型資產(chǎn)消費解決方案,通過簡化企業(yè)內(nèi)部生產(chǎn)者和消費者之間的數(shù)據(jù)產(chǎn)品共享,幫助加速企業(yè)實現(xiàn)數(shù)據(jù)驅(qū)動的成果。采用“將數(shù)據(jù)作為產(chǎn)品進行管理”的方法,數(shù)據(jù)所有者和數(shù)據(jù)管理員等數(shù)據(jù)生產(chǎn)者將能夠管理和發(fā)布數(shù)據(jù)產(chǎn)品(數(shù)據(jù)集、報表、模型、代碼和定制的數(shù)據(jù)衍生品集合)。 這些數(shù)據(jù)產(chǎn)品易于發(fā)現(xiàn)、管理和可重用,確保業(yè)務(wù)分析師、業(yè)務(wù)線用戶、數(shù)據(jù)科學(xué)家和其他數(shù)據(jù)消費者可以迅速找到并使用。
IBM Data Product Hub 從 IBM Knowledge Catalog 導(dǎo)入數(shù)據(jù)資產(chǎn),并將其打包以供整個企業(yè)的自助服務(wù)使用,并管理整個數(shù)據(jù)產(chǎn)品生命周期,從數(shù)據(jù)產(chǎn)品的加入到報廢。新增的數(shù)據(jù)合同定義了包含條款和條件以及服務(wù)水平協(xié)議的數(shù)據(jù)共享協(xié)議,將為數(shù)據(jù)生產(chǎn)者和數(shù)據(jù)消費者提供相互保證,確保數(shù)據(jù)以合規(guī)的方式共享和使用,從而在數(shù)據(jù)交換過程中融入信任。整個方案采用生成式人工智能技術(shù)來加速數(shù)據(jù)產(chǎn)品的發(fā)現(xiàn)、創(chuàng)建和消費。
通過“知”“行”合一,可以根據(jù)不同的場景,通過文件、API 和自然語言查詢等方法自動向業(yè)務(wù)用戶交付數(shù)據(jù)產(chǎn)品,從而更快地 AI 在企業(yè)大規(guī)模應(yīng)用,產(chǎn)生業(yè)務(wù)價值??梢栽谄髽I(yè)內(nèi)外實現(xiàn)大規(guī)模的數(shù)據(jù)共享,為業(yè)務(wù)用戶構(gòu)建單一入口,以便瀏覽整個企業(yè)的數(shù)據(jù)產(chǎn)品,形成真正的數(shù)字化“超級”市場。“爾來看此花時”,一旦找到精選的穩(wěn)定數(shù)據(jù)產(chǎn)品,“則此花顏色一時明白起來”。
總結(jié)
企業(yè)廣泛采用人工智能的時代已經(jīng)到來,AI 正從企業(yè)內(nèi)部的小型實驗試點轉(zhuǎn)向大規(guī)模實施,但這是馬拉松長跑,而不是百米沖刺,在過程中需要從不同的維度循序漸進地迭代展開。 具體實踐中會遇到很多“硬幣”的兩面,本文拋磚引玉談到了“分”與“合”、“縱”與“橫”、“知”與“行”。在數(shù)據(jù)和人工智能項目中還碰到更多的兩面,例如:“虛”與“實”:數(shù)據(jù)是邏輯的集中(“虛”: Data Virtualization)還是物理的集中(“實”:watsonx.data);“動”與“靜”:管道實時可觀測(“動”:Databand)還是數(shù)據(jù)血緣和沿襲(“靜”:Manta),等等。
作為數(shù)據(jù)和人工智能的領(lǐng)導(dǎo)者,IBM 不僅服務(wù)于眾多企業(yè)客戶,而且自身也在利用生成式人工智能進行著改變。隨著 watsonx 產(chǎn)品系列每季度的迭代更新和發(fā)展,越來越多的硬幣兩面會被注意到,并統(tǒng)一在 watsonx 中:“夫道一而已矣”。IBM 愿與您攜手,以開放與創(chuàng)新共參 AI 之道!
作者簡介:吳敏達是 The Open Group 卓越級技術(shù)專家(Distinguished Technical Specialist),同時擁有計算機技術(shù)與軟件專業(yè)系統(tǒng)架構(gòu)設(shè)計師技術(shù)資格。他現(xiàn)在是 IBM 科技事業(yè)部數(shù)據(jù)與人工智能資深技術(shù)專家,擁有 20 多年數(shù)據(jù)分析軟件相關(guān)技術(shù)經(jīng)驗,是 IBM 認證的大數(shù)據(jù)架構(gòu)師和 Watson 開發(fā)者,專長是大數(shù)據(jù)、人工智能等領(lǐng)域。他是 IBM Developer 的大師級作者,已經(jīng)發(fā)表了 40 余篇技術(shù)文章和教程?,F(xiàn)從事大數(shù)據(jù)、人工智能相關(guān)技術(shù)支持和架構(gòu)設(shè)計工作。