【ZiDongHua 之“半導(dǎo)體產(chǎn)業(yè)鏈”收錄關(guān)鍵詞: 華中科技大學(xué) 自然語言處理 集成電路 】
  
  學(xué)術(shù)芯聞 | 我院孫華軍/繆向水教授團(tuán)隊(duì)在基于憶阻器的語言模型電路級實(shí)現(xiàn)與算法協(xié)同設(shè)計(jì)方面研究方面取得重要進(jìn)展
  
  我院孫華軍/繆向水教授課題組在基于憶阻器的語言模型電路級實(shí)現(xiàn)與算法協(xié)同設(shè)計(jì)方面取得重要突破,相關(guān)研究成果以題為《Memristor-Based Circuit Implementation and Circuitry Optimized Algorithm for Mamba Language Network》的論文6月26日發(fā)表在國際電路與系統(tǒng)頂級期刊 IEEE Transactions on Circuits and Systems I: Regular Papers (IEEE TCAS-I) 上。我校為論文第一作者和通訊作者單位,我院張峻銘和南加州大學(xué)盛哲遠(yuǎn)為共同第一作者,孫華軍教授為通訊作者。
 
  
  01  問題闡述
  
  近年來,Transformer模型成為主流語言模型架構(gòu),廣泛應(yīng)用于自然語言處理與視覺任務(wù),但其基于自注意力機(jī)制的計(jì)算復(fù)雜度呈二次增長,需要龐大的資源開銷,限制了其在邊緣和嵌入式場景下的應(yīng)用。新興的Mamba語言模型通過選擇性狀態(tài)空間模型(Selective SSM)有效降低計(jì)算復(fù)雜度與處理長序列時(shí)所需的資源開銷,逐漸展現(xiàn)出替代Transformer的潛力。
  
  然而,Mamba模型因其計(jì)算結(jié)構(gòu)復(fù)雜、狀態(tài)變量耦合性強(qiáng),尚未實(shí)現(xiàn)基于憶阻器電路級的完整部署。同時(shí),缺乏面向電路級的并行掃描+硬件感知化推理算法。為突破上述難點(diǎn),團(tuán)隊(duì)針對在電路層面實(shí)現(xiàn)Mamba模型的關(guān)鍵挑戰(zhàn)——復(fù)雜矩陣計(jì)算與狀態(tài)存儲以及并行推理與隱狀態(tài)跨周期遷移——展開研究。
  
  02  解決問題
  
  提出了一種基于憶阻器的Mamba語言模型完整電路實(shí)現(xiàn)方案,并首次設(shè)計(jì)了一套電路感知并行掃描推理算法(Computing-in-Memory Parallel-Aware Algorithm),在結(jié)構(gòu)與數(shù)據(jù)流上實(shí)現(xiàn)端到端加速:
  
  全電路實(shí)現(xiàn)(Computing Architecture):設(shè)計(jì)標(biāo)準(zhǔn)1T1M憶阻交叉陣列與一維深度可分卷積憶阻陣列,覆蓋Mamba的投影,一維卷積等矩陣型運(yùn)算,避免權(quán)重與計(jì)算分離引入額外的存儲與I/O開銷。
  
  Implicit latent state “存內(nèi)計(jì)算”電路:提出CIM隱式潛態(tài)模塊,實(shí)現(xiàn)隱狀態(tài)計(jì)算,存儲與跨周期遷移,配合SiLU激活、RMS歸一化等功能電路,使推理過程全模擬化、顯著減少ADC/DAC與中間存儲。
  
  計(jì)算-存內(nèi)并行感知算法:將Mamba原生并行掃描與硬件感知融合到電路級,實(shí)現(xiàn)順序輸入、并行輸出與隱式潛態(tài)的自遷移;突破了Mamba的隱式潛態(tài)無法并行的缺陷,進(jìn)一步擴(kuò)展并行度。
 
  
  圖一:Mamba推理電路與hardware-aware parallel 算法示意圖
  
  03  成果亮點(diǎn)與測試驗(yàn)證實(shí)現(xiàn)了端到端的電路級句子生成任務(wù),驗(yàn)證模型電路從輸入詞嵌入到輸出序列的全鏈路正確性,同時(shí)所提出的電路級并行感知優(yōu)化算法使得計(jì)算總時(shí)間變?yōu)樵瓉淼?/3,驗(yàn)證了其并行 輸出的能力。在精度與魯棒性方面:模擬計(jì)算與標(biāo)準(zhǔn)結(jié)果對比,平均準(zhǔn)確率可達(dá)95.98%;在9位權(quán)重量化下平均準(zhǔn)確率仍然可達(dá)約86.58%。在加入15%白噪聲干擾下仍保持輸出穩(wěn)定,具備良好魯棒性。單個(gè)token生成平均功耗約為585.32 mW,在當(dāng)前模擬電路體系下表現(xiàn)優(yōu)異,展現(xiàn)出向低功耗嵌入式系統(tǒng)遷移的潛力。與Transformer及RNN等傳統(tǒng)模型相比,該實(shí)現(xiàn)顯著降低了計(jì)算復(fù)雜度與推理時(shí)延,為大規(guī)模電路集成提供了新的方向。
  
  結(jié)語
  
  該工作展示了Mamba語言模型在硬件級特別是基于憶阻電路的可實(shí)現(xiàn)性與優(yōu)越性。未來,團(tuán)隊(duì)后續(xù)將進(jìn)一步優(yōu)化電路架構(gòu),拓展電路規(guī)模,引入相似度計(jì)算等模塊,推動Mamba模型在邊緣AI設(shè)備中的實(shí)際部署與應(yīng)用。論文鏈接:https://doi.org/10.1109/TCSI.2025.3584247