【ZiDongHua之會展賽培壇收錄關(guān)鍵詞:無問芯穹 人工智能 智能汽車 AI】
 
釋放AI算力的無限可能,上海交通大學(xué)副教授、無問芯穹聯(lián)合創(chuàng)始人兼首席科學(xué)家戴國浩出席2024中國生成式AI大會
 
  12月6日,作為國內(nèi)生成式AI領(lǐng)域最具影響力的產(chǎn)業(yè)峰會之一,2024中國生成式AI大會上海站圓滿落幕。本次會議以“智能躍進(jìn)·創(chuàng)造無限”為主題,由上海市人工智能行業(yè)協(xié)會指導(dǎo),智東西發(fā)起主辦。人工智能領(lǐng)域五十余名研究人員與行業(yè)嘉賓出席,基于前瞻性視角,共同解構(gòu)和把脈生成式AI的技術(shù)產(chǎn)品創(chuàng)新、商業(yè)落地解法、未來趨勢走向與前沿研究焦點。在中國生成式AI大會上海站的AI Infra峰會上,上海交通大學(xué)副教授、無問芯穹聯(lián)合創(chuàng)始人兼首席科學(xué)家戴國浩發(fā)表主題為《軟硬協(xié)同與多元異構(gòu),共筑大模型算力底座》的開場報告,現(xiàn)將演講內(nèi)容整理成文,與各位讀者共同饕覽。
 
 
  人工智能的發(fā)展歷程正從感知智能向認(rèn)知智能邁進(jìn),這一轉(zhuǎn)變由算法、數(shù)據(jù)和算力這三大要素“穿插式”驅(qū)動,缺一不可。市場曾預(yù)測,GPT-5可能在2023年底或2024年夏季發(fā)布,然而其發(fā)布卻一再延期,過去的一年中業(yè)界出現(xiàn)許多質(zhì)疑聲音,對模型規(guī)模定律(Scaling Law)的長期有效性提出了挑戰(zhàn)。研究機構(gòu)Epoch AI預(yù)測,最快到2026年,人類公共文本的總存量可能會被耗盡。由此,當(dāng)前硅谷普遍認(rèn)為,受限于構(gòu)建更大規(guī)模模型的數(shù)據(jù)與算力難題,繼續(xù)擴大模型規(guī)模的難度越來越大,因此能生產(chǎn)出更多高質(zhì)量數(shù)據(jù)的合成數(shù)據(jù)模型,以及對數(shù)據(jù)需求更低的推理模型或成為可行的解決方案。
 
  與此同時,隨著GPT-o1等新一代推理模型的推出,計算范式正在發(fā)生顯著的轉(zhuǎn)變。多步推理使得模型在相同數(shù)據(jù)量情況下?lián)碛懈玫耐评硇ЧP屯评淼挠嬎阈枨笠搽S之激增,呈現(xiàn)出從10到100的指數(shù)級增長。這種變化可能導(dǎo)致硬件系統(tǒng)的能耗開銷供不應(yīng)求,從而對整個行業(yè)的可持續(xù)發(fā)展構(gòu)成挑戰(zhàn)。
 
  以同樣的算力呈現(xiàn)出更好的結(jié)果
 
  “我們發(fā)現(xiàn)在人工智能領(lǐng)域,衡量算力的指標(biāo),正在從以往的每秒操作數(shù)GOPs/s,轉(zhuǎn)變?yōu)橥掏侣蕋okens/s。”戴國浩在會議現(xiàn)場向大家表示,當(dāng)下業(yè)界更應(yīng)該關(guān)注單位算力如何實現(xiàn)更高效的token吞吐,讓大模型的實際可用算力不僅取決于芯片的理論算力,還可通過優(yōu)化系數(shù)放大算力利用效率,并通過集群規(guī)模放大整體算力規(guī)模,從而提高行業(yè)整體算力供給水平,提升面向大模型場景的token吞吐效率。
 
  在軟硬協(xié)同方面,可利用智能算法的可學(xué)習(xí)特點,同時優(yōu)化算法和電路,面向算法模型、數(shù)據(jù)結(jié)構(gòu)、數(shù)據(jù)表示、計算圖進(jìn)行算法電路協(xié)同設(shè)計,在保證準(zhǔn)確率的前提下,實現(xiàn)算法加電路整個系統(tǒng)的速度提升和能效的數(shù)量級提升。通過算法設(shè)計和模型剪枝降低工作負(fù)載,通過模型的量化和算子優(yōu)化來提升提高峰值性能,并結(jié)合硬件的架構(gòu)設(shè)計來提升資源的利用率。
 
 
  在算法設(shè)計、數(shù)據(jù)結(jié)構(gòu)優(yōu)化與模型量化方面,無問芯穹與清華、上交聯(lián)合研究團(tuán)在算法設(shè)計、數(shù)據(jù)結(jié)構(gòu)優(yōu)化與模型量化方面,無問芯穹與清華、上交聯(lián)合研究團(tuán)隊的代表性工作為思維骨架SoT、稀疏注意力方案MoA、QLLM-Eval[ICML 2024]、MixDQ[ECCV 2024]、ViDiT-Q[ICLR 2025 Submission]等;在算子優(yōu)化層面,曾提出FlashDecoding++,相較于SOTA工作,在NVIDIA A100上推理平均加速37%,在AMD MI210上實現(xiàn)300%+的性能提升;在高能效稀疏計算層面,提出了轉(zhuǎn)置結(jié)構(gòu)化稀疏架構(gòu)TB-STC[HPCA 2025],實現(xiàn)平均2.31倍加速和3.82倍能量延遲積(EDP)節(jié)省;在異構(gòu)算力加速層面,提出面向Mamba、RWKV等Attention-free基礎(chǔ)模型的異構(gòu)存算加速方案[ICCAD 2024],相比GPU基準(zhǔn)方案可實現(xiàn)高達(dá)89倍的加速比和2537倍的能效提升;基于上述軟硬件研究成果,進(jìn)一步提出融合“結(jié)構(gòu)化稀疏+混合精度量化+可重構(gòu)DSP鏈+在線解碼調(diào)度”的大模型推理加速器FlightLLM[FPGA 2024],在低端工藝FPGA上實現(xiàn)相比高端工藝GPU約6倍的能效提升。
 
  秉持算法與電路協(xié)同設(shè)計路線,無問芯穹打造了全球領(lǐng)先的第三代大模型推理系統(tǒng),通過計算分離與存儲融合式設(shè)計,確保首token延遲(Time To First Token,TTFT)與每個token的生成延時(Time per output token,TPOT)均維持較低水平,讓模型在同等的算力條件下呈現(xiàn)更好的效果。
 
  以更多的算力重塑行業(yè)競爭格局
 
  近年來,大量異構(gòu)算力芯片被投入集群從事AI生產(chǎn),卻困于生態(tài)困境,即不同硬件平臺適配不同的軟件棧和工具鏈,難以被有效利用。相比國際上模型層與芯片層呈現(xiàn)的“雙頭收斂”格局,中國的模型層與芯片層卻表現(xiàn)出百花齊放的“M×N”格局。面對國內(nèi)模型層和算力層高度分散的現(xiàn)狀,戴國浩表示基礎(chǔ)設(shè)施是關(guān)鍵,應(yīng)構(gòu)建異構(gòu)算力平臺實現(xiàn)異構(gòu)集群訓(xùn)練,讓更多芯片能夠被用起來,加速千行百業(yè)大模型應(yīng)用場景落地。
 
  模型超大化發(fā)展,對智算集群提出了更高的要求。為支撐更大規(guī)模模型訓(xùn)練,集群數(shù)量從百卡發(fā)展到千卡、萬卡,這不僅需要引入更多異構(gòu)芯片,集群建設(shè)與運維難度也大幅提升,訓(xùn)練模型時更將會遇到跨越軟硬件層棧的多重挑戰(zhàn),如網(wǎng)絡(luò)建設(shè)成本與故障率高、訓(xùn)練算力利用率與互聯(lián)性能低,以及算力調(diào)度、容錯難度增加等。由此,無問芯穹推出了萬卡規(guī)模訓(xùn)練智算集群核心模塊,通過提供包含了全鏈路極致性能優(yōu)化加速套件的彈性算力池,構(gòu)建一站式開放的AI作業(yè)平臺,為超大模型訓(xùn)練提供訓(xùn)練框架、高性能網(wǎng)絡(luò)以及調(diào)度容錯服務(wù)。
 
 
  基于該核心模塊,無問芯穹打造了面向萬卡集群的多硬件分布式混合訓(xùn)練平臺,可打通6種異構(gòu)芯片間組合,讓性能損失最小低于10%,支持現(xiàn)有芯片資源復(fù)用、多種芯片靈活部署、兼容異構(gòu)接口通信的同時,通過軟件設(shè)計確保模型計算精度。今年7月,無問芯穹將該異構(gòu)訓(xùn)練能力發(fā)布至Infini-AI異構(gòu)云平臺,于全球首次實現(xiàn)了包括AMD、華為昇騰、天數(shù)智芯、沐曦、摩爾線程、NVIDIA六種異構(gòu)芯片在內(nèi)的“4+2”種芯片組合異構(gòu)千卡混合訓(xùn)練,算力利用率最高達(dá)97.6%,具備萬卡擴展性,可一鍵發(fā)起700億參數(shù)大模型訓(xùn)練。
 
  隨后,無問芯穹又作為核心技術(shù)團(tuán)隊貢獻(xiàn)了異構(gòu)互聯(lián)并行訓(xùn)練策略、異構(gòu)芯片通信打通和跨域互聯(lián)技術(shù)方案,參與發(fā)布了浦江跨域異構(gòu)算力網(wǎng)絡(luò)實驗驗證成果,實現(xiàn)了異構(gòu)混訓(xùn)效率達(dá)97.5%,跨域異構(gòu)混訓(xùn)效率達(dá)90%。此外,Infini-AI異構(gòu)云平臺還部署在了沐曦百卡集群上,并成功服務(wù)上海算創(chuàng)院,助力滬產(chǎn)算力形成了國內(nèi)首個純國產(chǎn)、完整閉環(huán)的生態(tài)鏈。
 
  以有限的算力讓端側(cè)無處不智能
 
  Scaling Law是否長期有效?AI發(fā)展的另一面,是在算力資源受限卻距離每個人最近的端側(cè)。當(dāng)前,一個最新的3-4B規(guī)模的大模型,其智能程度可以比肩2022年底Open AI剛發(fā)布的GPT3.5。伴隨著端側(cè)大模型知識密度不斷提升,未來,端側(cè)等體積模型的智能水平有望從GPT-3.5發(fā)展到GPT-4o/o1。端側(cè)大模型在智能汽車、手機、電腦等設(shè)備中逐步展露出巨大潛力,而這需要更低的功耗、更高效的token吞吐以及更長的續(xù)航能力。
 
  面對泛端側(cè)智能對于更小體積、更少參數(shù)、更高性能的要求,端側(cè)軟硬件正受到內(nèi)存和計算能力的雙重挑戰(zhàn)。戴國浩認(rèn)為,泛端側(cè)進(jìn)階智能對于能效提出了5倍于當(dāng)下能效水平的要求,通過模型設(shè)計、算法壓縮、軟件優(yōu)化以及硬件設(shè)計的整體進(jìn)步可逐步抵達(dá)這一目標(biāo)。
 
  在模型層面,無問芯穹針對端側(cè)垂類場景做專用小模型,可以3B模型的推理速度呈現(xiàn)出13B模型乃至更大參數(shù)規(guī)模模型的智能水平;在算法壓縮層面,通過權(quán)重量化、稀疏注意力以及并行解碼等技術(shù)方案,能夠?qū)崿F(xiàn)模型的“近無損壓縮”;在軟件優(yōu)化層面,無問芯穹長期致力于通過推理算子優(yōu)化、顯存復(fù)用優(yōu)化、異構(gòu)系統(tǒng)加速等跨層優(yōu)化方法,實現(xiàn)軟件利用率最大化;在硬件IP層面,則通過大模型專用指令集、結(jié)構(gòu)化稀疏計算單元、混合精度計算陣列、以及面向3D堆疊的訪存互聯(lián)架構(gòu)等技術(shù)方案,進(jìn)一步突破了算力與訪存瓶頸,實現(xiàn)性能(tokens/s)與能效(tokens/J)的數(shù)量級提升。
 
  在AI技術(shù)迅猛發(fā)展的今天,算力底座的不充分發(fā)展,已成為制約AI廣泛應(yīng)用的主要瓶頸。戴國浩教授的本次報告,創(chuàng)新性地將影響AI模型算力供給的關(guān)鍵要素歸納為“軟硬協(xié)同”與“多元異構(gòu)”,并集中探討了算力供給錯配的問題。深入分析AI在持續(xù)發(fā)展和應(yīng)用落地過程中所面臨的云側(cè)與端側(cè)算力挑戰(zhàn),從技術(shù)創(chuàng)新和產(chǎn)業(yè)實踐的角度出發(fā),提出了創(chuàng)新解決方案。作為該方案的產(chǎn)業(yè)構(gòu)成,無問芯穹致力于持續(xù)擴大AI算力供給,提升面向大模型場景的token吞吐效率,降低大型模型部署的算力成本,以推動AI技術(shù)的持續(xù)進(jìn)步,促進(jìn)更多AI應(yīng)用在云與端上的成功落地,實現(xiàn)更廣泛的社會和經(jīng)濟(jì)效益。