【ZiDongHua 之“半導(dǎo)體產(chǎn)業(yè)鏈”收錄關(guān)鍵詞:中科院自動化所    GPU    類腦脈沖大模型    大模型   人工智能

基于內(nèi)生復(fù)雜性的類腦脈沖大模型“瞬悉1.0”問世

近日,中國科學(xué)院自動化研究所李國齊、徐波團(tuán)隊在發(fā)表原創(chuàng)內(nèi)生復(fù)雜性理論系列論文的工作基礎(chǔ)上,與沐曦MetaX合作,打造了類腦脈沖大模型“瞬悉1.0”(SpikingBrain-1.0),在國產(chǎn)千卡GPU算力平臺上完成全流程訓(xùn)練和推理,實現(xiàn)了大模型在超長序列推理上數(shù)量級的效率和速度提升,展示了構(gòu)建國產(chǎn)自主可控的新型非Transformer大模型架構(gòu)生態(tài)的可行性。研究團(tuán)隊開源了SpikingBrain-1.0-7B模型并開放SpikingBrain-1.0-76B測試網(wǎng)址,同步公開了經(jīng)工業(yè)界大規(guī)模驗證的類腦脈沖大模型SpikingBrain-1.0中英文技術(shù)報告。

基于內(nèi)生復(fù)雜性的非Transformer架構(gòu)當(dāng)前,基于Transformer架構(gòu)的大模型在Scaling law驅(qū)動下,通過增加網(wǎng)絡(luò)規(guī)模、算力資源和數(shù)據(jù)量提升模型智能水平,但模型的基本計算單元為簡單的點神經(jīng)元模型,我們將此路徑稱為“基于外生復(fù)雜性”的通用智能實現(xiàn)方法。Transformer架構(gòu)的固有缺點訓(xùn)練時開銷隨序列長度呈平方級增長以及推理時顯存占用也隨序列長度線性增加,構(gòu)成了資源消耗的主要瓶頸,導(dǎo)致其處理超長序列的能力受限。

研發(fā)團(tuán)隊借鑒大腦神經(jīng)元內(nèi)部復(fù)雜工作機制提出“基于內(nèi)生復(fù)雜性”的大模型構(gòu)架方式,打造類腦脈沖大模型“瞬悉1.0”( SpikingBrain-1.0),在理論上建立了脈沖神經(jīng)元內(nèi)生動力學(xué)與線性注意力模型之間的聯(lián)系,揭示了現(xiàn)有線性注意力機制是樹突計算的特殊簡化形式,從而清晰地展示了一條不斷提升模型復(fù)雜度和性能的新型可行路徑。研發(fā)團(tuán)隊進(jìn)而構(gòu)建并開源了基于脈沖神經(jīng)元、具有線性(SpikingBrain-1.0-7B)及混合線性復(fù)雜度(SpikingBrain-1.0-76B,激活參數(shù)量12B)的新型類腦基礎(chǔ)模型,開發(fā)了面向國產(chǎn)GPU(沐曦MetaX曦云C550)集群高效訓(xùn)練和推理框架、Triton 算子庫、模型并行策略以及集群通信原語。

兼具效率與性能,實現(xiàn)多個核心突破SpikingBrain-1.0在多個核心性能上實現(xiàn)突破。

第一,極低數(shù)據(jù)量上的高效訓(xùn)練:訓(xùn)練階段具有線性或近線性復(fù)雜度,顯著提升長序列訓(xùn)練效率,并能依托高效轉(zhuǎn)換訓(xùn)練范式,以約為主流大模型2%的預(yù)訓(xùn)練數(shù)據(jù)量實現(xiàn)與眾多開源Transformer模型在多任務(wù)語言理解(MMLU),中文多任務(wù)語言理解(CMMLU、Ceval), 常識推理能力(ARC、HS)任務(wù)上相媲美的性能。

第二,推理效率的數(shù)量級提升:推理階段結(jié)合脈沖神經(jīng)元事件驅(qū)動特性,SpikingBrain具有常數(shù)或部分層常數(shù)級別的復(fù)雜度和存儲開銷,SpikingBrain-7B模型在100萬Token長度下TTFT(生成第一個Token所需時間)相比Transformer架構(gòu)加速達(dá)到26.5倍,400萬Token長度下加速超過100倍。同時在手機CPU端64k-128k-256k長度下較Llama3.2的同規(guī)模模型Decoding速度提升4.04x-7.52x-15.39x,在超長序列處理能力上展現(xiàn)出數(shù)量級的效率和速度提升。

第三,國產(chǎn)自主可控類腦大模型生態(tài)的構(gòu)建:SpikingBrain適配了面向國產(chǎn)GPU集群的高效訓(xùn)練和推理框架、Triton算子庫、模型并行策略以及集群通信原語,表明了構(gòu)建國產(chǎn)自主可控的新型非Transformer大模型架構(gòu)生態(tài)的可行性。

第四,基于動態(tài)閾值脈沖化的多尺度稀疏機制:設(shè)計細(xì)粒度的兩階段動態(tài)閾值脈沖化策略,結(jié)合粗粒度的混合專家模型(MoE)方案,在7B模型上實現(xiàn)了超過69.15%的稀疏度,長序脈沖占比約1.85%,為低功耗的類腦大模型運行提供有力支撐。

這是我國首次提出大規(guī)模類腦線性基礎(chǔ)模型架構(gòu)、并首次在國產(chǎn)GPU算力集群上構(gòu)建類腦脈沖大模型的訓(xùn)練和推理框架。提出的模型解決了脈沖驅(qū)動限制下的大規(guī)模類腦模型性能退化問題,其超長序列處理能力在法律/醫(yī)學(xué)文檔分析、復(fù)雜多智能體模擬、高能粒子物理實驗、DNA序列分析、分子動力學(xué)軌跡等超長序列任務(wù)建模場景中具有顯著的潛在效率優(yōu)勢。本次發(fā)布的大模型為新一代人工智能發(fā)展提供了非Transformer架構(gòu)的新技術(shù)路線,并將啟迪更低功耗的下一代神經(jīng)形態(tài)計算理論和芯片設(shè)計。

的新技術(shù)路線,并將啟迪更低功耗的下一代神經(jīng)形態(tài)計算理論和芯片設(shè)計。