【ZiDongHua 之“設(shè)計(jì)自動(dòng)化”收錄關(guān)鍵詞: 北京大學(xué) 集成電路 電子設(shè)計(jì)自動(dòng)化
  
  北大EDA | 北京大學(xué)無錫EDA研究院7篇論文入選第62屆設(shè)計(jì)自動(dòng)化會(huì)議(DAC)
  
  6月22日至25日,第62屆設(shè)計(jì)自動(dòng)化會(huì)議(DAC 2025)在美國舊金山召開。在本次大會(huì)上,來自電子設(shè)計(jì)自動(dòng)化(EDA)與集成電路設(shè)計(jì)領(lǐng)域的高校、公司及研究機(jī)構(gòu)群英薈萃,分享了EDA技術(shù)的最新發(fā)展和廣泛應(yīng)用,討論了本領(lǐng)域進(jìn)一步發(fā)展的前景和方向。北京大學(xué)集成電路學(xué)院、北京大學(xué)無錫EDA研究院的十余位師生現(xiàn)場參加了本次大會(huì),進(jìn)行了匯報(bào)與交流。
 
 
 
  參會(huì)師生合影在本次大會(huì)上,北京大學(xué)無錫EDA研究院共有7篇論文入選,研究成果覆蓋了芯片設(shè)計(jì)、體系架構(gòu)、存算一體、設(shè)計(jì)自動(dòng)化、軟硬件協(xié)同等領(lǐng)域。相關(guān)介紹如下:1.多目標(biāo)雙面時(shí)鐘樹綜合算法
  
  隨著半導(dǎo)體器件尺寸縮放逼近物理極限,利用硅基板背面空間已成為未來集成電路發(fā)展的新趨勢。目前已有多個(gè)研究通過改造現(xiàn)有后端工具,探索利用納米硅通孔(nTSV)實(shí)現(xiàn)雙面時(shí)鐘樹綜合的潛力,但這些工作缺乏對設(shè)計(jì)資源分配和多目標(biāo)優(yōu)化的系統(tǒng)性考量。本工作提出了基于多目標(biāo)優(yōu)化的雙面時(shí)鐘樹綜合,包含分層時(shí)鐘樹布線、緩沖器與納米硅通孔協(xié)同插入以及偏差微調(diào)等關(guān)鍵技術(shù)。結(jié)合設(shè)計(jì)空間探索方法,進(jìn)一步提升了雙面時(shí)鐘樹綜合工具的設(shè)計(jì)能力,可以滿足不同的實(shí)際設(shè)計(jì)需求。相比于當(dāng)前最先進(jìn)的設(shè)計(jì)方法,在開源的測試樣例上,平均減少了55%的時(shí)鐘延遲、 59%的時(shí)鐘偏差、1%的緩沖器數(shù)量、20%的布線長度優(yōu)化及31%的nTSV數(shù)量。該工作以《A Systematic Approach for Multi-objective Double-side Clock Tree Synthesis》為題發(fā)表(博士生江循為第一作者,林亦波研究員為通訊作者)。
 
 
  2.GPU加速RTL仿真工具GPU加速的RTL仿真工具(GEM)是一項(xiàng)面向高速電路驗(yàn)證的創(chuàng)新工作,旨在解決傳統(tǒng)RTL仿真在性能和可擴(kuò)展性方面的瓶頸?,F(xiàn)有基于CPU的RTL仿真器在處理大規(guī)模設(shè)計(jì)時(shí)效率低下,而盡管基于FPGA的仿真平臺(tái)能夠?qū)崿F(xiàn)加速,其高昂的成本與部署復(fù)雜性限制了普及。已有的GPU加速嘗試未能實(shí)現(xiàn)預(yù)期性能突破,根本原因在于電路邏輯的異構(gòu)性與GPU的SIMT(單指令多線程)執(zhí)行模型之間存在結(jié)構(gòu)性沖突,導(dǎo)致線程分歧和內(nèi)存訪問不規(guī)律問題嚴(yán)重。針對上述挑戰(zhàn),林亦波研究員團(tuán)隊(duì)受FPGA/ASIC硬件仿真啟發(fā),提出了一種面向GPU高效執(zhí)行的虛擬超長指令字(VLIW)架構(gòu)。該架構(gòu)專為CUDA平臺(tái)設(shè)計(jì),能夠更好地適配GPU的執(zhí)行模型,顯著減少線程分歧帶來的性能損耗。同時(shí),團(tuán)隊(duì)還設(shè)計(jì)了一套類似FPGA CAD流程的自動(dòng)映射流程,將RTL電路邏輯高效映射到該虛擬VLIW架構(gòu)中,從源頭解決不規(guī)則訪存問題,釋放GPU在RTL仿真任務(wù)中的潛能。實(shí)驗(yàn)結(jié)果表明,該方法在通用GPU硬件上相較于當(dāng)前最優(yōu)的CPU RTL仿真器可實(shí)現(xiàn)最高達(dá)64倍的加速效果。GEM的提出,不僅大幅提升了RTL仿真的執(zhí)行效率,更以更具可及性的硬件方案推動(dòng)了高性能電路驗(yàn)證的普及,為GPU驅(qū)動(dòng)的RTL仿真探索了全新方向。該工作以《GEM: GPU-Accelerated Emulator-Inspired RTL Simulation》為題發(fā)表(北京大學(xué)博士生郭資政為第一作者,本論文獲DAC最佳論文提名)。3.基于交替方向乘子法(ADMM)的布局布線協(xié)同優(yōu)化
  
  布局在超大規(guī)模集成電路(VLSI)物理設(shè)計(jì)中具有關(guān)鍵作用,尤其在優(yōu)化布線能力方面。隨著半導(dǎo)體制造技術(shù)的持續(xù)進(jìn)步、集成度不斷提高以及設(shè)計(jì)復(fù)雜度日益增長,布局階段的布線擁塞管理變得極具挑戰(zhàn)性。盡管現(xiàn)有技術(shù)普遍采用多種方法來提升布線能力,但這些方法往往缺乏理論指導(dǎo),或割裂了布局優(yōu)化與布線優(yōu)化之間的內(nèi)在聯(lián)系。本文提出RUPlace——一種基于交替方向乘子法(ADMM)的布局布線協(xié)同優(yōu)化工具。通過融合瓦瑟斯坦距離與雙層優(yōu)化技術(shù),本方法構(gòu)建了全局布線與增量布局交替運(yùn)行的統(tǒng)一擁塞優(yōu)化框架。此外,我們創(chuàng)新性地提出了一種基于單元膨脹的簡潔高效全局布局模型,采用凸規(guī)劃方法求解最優(yōu)膨脹比例。在CircuitNet和Chipyard開源工業(yè)基準(zhǔn)測試集上的實(shí)驗(yàn)表明:相較于OpenROAD、Xplace 2.0和DREAMPlace 4.1等主流工具,RUPlace在保持線長與運(yùn)行時(shí)競爭力的同時(shí),能實(shí)現(xiàn)更優(yōu)異的擁塞優(yōu)化效果。該工作以《RUPlace: Optimizing Routability via Unified Placement and Routing Formulation》為題發(fā)表(博士生陳一帆為第一作者,林亦波研究員為通訊作者)。4.協(xié)同優(yōu)化的Die級(jí)別布線算法
  
  隨著現(xiàn)代集成電路設(shè)計(jì)規(guī)模的不斷增大,由多個(gè)具有多個(gè)超級(jí)邏輯區(qū)域(SLR,也叫Die)的FPGA元件組成的多FPGA系統(tǒng)在現(xiàn)代集成電路的仿真中扮演了越來越重要的作用。在每個(gè)FPGA內(nèi)部的布局布線之前,需要完成在系統(tǒng)層的布線和時(shí)分復(fù)用率分配。然而,傳統(tǒng)的系統(tǒng)層布線算法大多關(guān)注FPGA層的布線,而忽略Die級(jí)別的布線,從而導(dǎo)致無法在系統(tǒng)層有效優(yōu)化設(shè)計(jì)性能。針對這一難題,林亦波研究員團(tuán)隊(duì)提出了協(xié)同優(yōu)化的Die級(jí)別布線算法。該算法通過擁塞-延遲平衡的初始布線和基于拉格朗日松弛的多線程時(shí)分復(fù)用率分配算法,有效地在Die級(jí)別高效完成了布線。結(jié)果表明,與現(xiàn)有最先進(jìn)方法對比,該算法能夠以5.761倍加速比減小7.6%的關(guān)鍵連接延遲。該工作以《Synergistic Die-Level Router for Multi-FPGA System with Time-Division Multiplexing Optimization》為題發(fā)表(博士生王嘉睿為第一作者,林亦波研究員為通訊作者)。5.混合專家模型推理加速混合專家模型(Mixture of Experts,MoE)已經(jīng)成為了大語言模型的主流架構(gòu),但在邊緣端設(shè)備上部署時(shí)面臨權(quán)重存儲(chǔ)需求過高的問題,需要將專家權(quán)重卸載至更低級(jí)存儲(chǔ),從而產(chǎn)生巨大的數(shù)據(jù)傳輸開銷。部分工作嘗試構(gòu)建CPU-GPU協(xié)同的異構(gòu)系統(tǒng),使用CPU進(jìn)行部分計(jì)算,降低模型權(quán)重加載到GPU上的傳輸開銷。然而,現(xiàn)有的方法采用了固定的映射模式,在面對具有高度不穩(wěn)定性的專家激活時(shí),存在任務(wù)分配不均資源利用率較低的問題。針對這一挑戰(zhàn),李萌研究員團(tuán)隊(duì)提出了一種名為HybriMoE的CPU-GPU混合推理框架。HybriMoE框架通過三個(gè)核心技術(shù)創(chuàng)新解決了MoE推理過程中激活模式不穩(wěn)定、負(fù)載分配不均的問題:(1)動(dòng)態(tài)層內(nèi)調(diào)度策略,有效平衡CPU和GPU的負(fù)載;(2)基于影響驅(qū)動(dòng)的層間預(yù)取算法,優(yōu)先預(yù)加載后續(xù)層中預(yù)期帶來較大效益的專家;(3)基于專家評分的緩存管理策略,減少專家激活不穩(wěn)定性帶來的緩存未命中。實(shí)驗(yàn)結(jié)果表明,相較于現(xiàn)有最先進(jìn)的混合推理框架,HybriMoE在預(yù)填充階段平均獲得了1.33倍的速度提升,在解碼階段則達(dá)到1.70倍的提升。該工作以《HybriMoE: Hybrid CPU-GPU Scheduling and Cache Management for Efficient MoE Inference》為題發(fā)表(北京大學(xué)博士生仲書璋為第一作者,李萌研究員為通訊作者)。6.大語言模型的硬件容錯(cuò)
  
  高效大語言模型推理的需求催生了專用加速器的發(fā)展。然而由于老化、工藝漲落等因素,這些加速器易發(fā)生硬件故障?,F(xiàn)有設(shè)計(jì)通常預(yù)留較大的電壓裕度或采用基于算法的容錯(cuò)(ABFT)技術(shù)來確保大模型推理的正確性。然而并非所有硬件故障都會(huì)影響模型輸出結(jié)果,傳統(tǒng)方案因此引入了較高的計(jì)算和能耗開銷。為實(shí)現(xiàn)可靠且高效的大模型推理,李萌研究員-王潤聲教授團(tuán)隊(duì)提出了一種名為ReaLM的算法/電路協(xié)同設(shè)計(jì)框架。該架構(gòu)首次通過大規(guī)模誤差注入實(shí)驗(yàn),系統(tǒng)地表征了大模型的容錯(cuò)特性?;诖耍摽蚣芴岢隽艘环N統(tǒng)計(jì)ABFT策略,該策略充分利用大模型的容錯(cuò)特性,僅針對關(guān)鍵錯(cuò)誤觸發(fā)恢復(fù)機(jī)制,來最大程度避免不必要的糾錯(cuò)開銷。此外還設(shè)計(jì)了動(dòng)態(tài)錯(cuò)誤檢測電路,以支持低成本的在線錯(cuò)誤統(tǒng)計(jì)信息的收集。大量實(shí)驗(yàn)表明,在僅增加1.42%電路面積和1.79%功耗開銷的情況下,ReaLM框架顯著提高的大模型的可靠性。與現(xiàn)有方法相比,ReaLM在不同工作電壓下均能顯著降低糾錯(cuò)成本,并在保證大模型性能的前提下,將系統(tǒng)能效提升高達(dá)35.83%。該工作以《ReaLM: Reliable and Efficient Large Language Model Inference with Statiatical Algorithm-Based Fault Tolerance》為題發(fā)表(博士生解同為第一作者,李萌研究員為通訊作者)。7.基于推測解碼的語音識(shí)別加速框架SpecASR基于大語言模型(LLM)的自動(dòng)語音識(shí)別(ASR)由于具有較高的識(shí)別準(zhǔn)確率和增強(qiáng)的多方言支持度,近年來受到了廣泛關(guān)注。然而,LLM的高解碼延遲對實(shí)時(shí)ASR的要求提出了挑戰(zhàn)。盡管推測解碼已經(jīng)被探索以獲得更好的解碼效率,但其忽略了ASR任務(wù)的關(guān)鍵特性,只獲得了有限的加速比。為了進(jìn)一步降低實(shí)時(shí)ASR的延遲,李萌研究員團(tuán)隊(duì)提出了一種新的專門針對ASR的推測解碼框架SpecASR。這一框架基于他們的核心觀察開發(fā),即ASR解碼是音頻條件化的,這導(dǎo)致小參數(shù)模型和大參數(shù)模型即使在中間解碼步驟中輸出不匹配,整體的輸出對齊度很高?;诖?,SpecASR提出自適應(yīng)的草案序列生成過程,動(dòng)態(tài)修改草稿序列長度,最大化驗(yàn)證接受數(shù)量。SpecASR進(jìn)一步提出了草稿序列回收策略,對驗(yàn)證未通過的草稿序列進(jìn)行再利用,以減少草稿ASR模型延遲。此外,李萌研究員團(tuán)隊(duì)還提出了一種兩階段稀疏詞元樹生成算法,以平衡草稿和目標(biāo)模型間的延遲。在不損失識(shí)別準(zhǔn)確率的情況下,SpecASR相比基線自回歸解碼和推測解碼分別獲得了3.04×-3.79×和1.25×-1.84×的加速。該工作以《SpecASR: Accelerating LLM-based Automatic Speech Recognition via Speculative Decoding》為題發(fā)表(博士生韋臨燁為第一作者,李萌研究員為通訊作者)。
  
  END
  
  關(guān)于我們無錫北京大學(xué)電子設(shè)計(jì)自動(dòng)化研究院(簡稱北大EDA研究院)是北京大學(xué)與無錫市人民政府、無錫國家高新技術(shù)產(chǎn)業(yè)開發(fā)區(qū)管理委員會(huì)簽約共建的企業(yè)化管理的民辦非營利單位。研究院依托北京大學(xué)集成電路領(lǐng)域的學(xué)科優(yōu)勢,致力于在電子設(shè)計(jì)自動(dòng)化(EDA)領(lǐng)域開展基礎(chǔ)研究與應(yīng)用研究,培養(yǎng)和引進(jìn)國際國內(nèi)科創(chuàng)人才,促進(jìn)科技成果轉(zhuǎn)化,培育新興產(chǎn)業(yè),努力建設(shè)成為產(chǎn)研一體、對學(xué)科研究和產(chǎn)業(yè)發(fā)展具有引領(lǐng)作用的創(chuàng)新平臺(tái)。關(guān)于芯懷科技無錫芯懷科技有限公司是由北京大學(xué)EDA研究院孵化并運(yùn)營的市場化企業(yè),總部位于無錫高新區(qū)。芯懷科技致力于通過轉(zhuǎn)化集成電路領(lǐng)域科研成果和尖端技術(shù),向集成電路產(chǎn)業(yè)提供高效率EDA工具和DTCO流程優(yōu)化服務(wù),努力成為技術(shù)頂尖的科技企業(yè)。