【ZiDongHua 之“智能自動化”收錄關鍵詞: 中科聞歌 人工智能 智能體】
  
  人工智能安全與超級對齊北京市重點實驗室成立,探索人工智能系統(tǒng)安全可控方案
  
  近日,人工智能安全與超級對齊北京市重點實驗室(Beijing Key Laboratory of Safe AI and Superalignment)在中關村論壇年會正式亮相,實驗室由中國科學院自動化研究所牽頭建設,北京大學、北京師范大學參與共建。中國科學院自動化所研究員、中科聞歌董事長王磊博士任實驗室副主任。
  
  實驗室與相關領域的北京市重點實驗室組成“北京人工智能安全治理協(xié)同創(chuàng)新矩陣”,共同構(gòu)建系統(tǒng)化的安全與治理體系。
  
  實驗室簡介
  
  人工智能安全與超級對齊北京市重點實驗室圍繞前沿人工智能技術(shù)帶來的安全風險及治理需求,重點突破人工智能安全與超級對齊技術(shù),探索人工智能系統(tǒng)安全可控方案,實現(xiàn)對前沿人工智能模型和超級智能的有效監(jiān)督指導和風險控制,并在前沿人工智能模型上開展示范應用,為通用人工智能的創(chuàng)新發(fā)展構(gòu)筑前沿的安全與治理護欄,引導超級智能與人類和諧共生。
  
  實驗室由中國科學院自動化研究所牽頭建設,北京大學、北京師范大學參與共建,組成了人工智能、認知心理學、腦科學、倫理安全與治理、系統(tǒng)科學的交叉學科研究團隊,旨在依托和凝聚北京市的優(yōu)勢跨學科力量,瞄準人工智能安全與超級對齊領域關鍵科學問題與實踐,重塑和優(yōu)化現(xiàn)有人工智能安全和超級對齊的科學與技術(shù)格局,構(gòu)建讓人工智能和超級智能安全可控的“北京方案”。
  
  科學研究目標
  
  ● 研究并構(gòu)建人工智能倫理安全模型與體系
  
  ● 發(fā)展融合被動風險防范與主動設計構(gòu)建的安全人工智能新理論與模型
  
  ● 探索并發(fā)展融合外部監(jiān)督對齊與內(nèi)部機制對齊的超級對齊新理論與技術(shù)
  
  ● 構(gòu)建讓人工智能安全可控的超級對齊“北京方案”
  
  建設發(fā)展目標
  
  ● 建設成為國際知名的人工智能安全與超級對齊前沿交叉研究基地
  
  ● 凝聚北京市優(yōu)勢跨學科研發(fā)力量,前瞻布局引領人工智能安全與超級對齊前沿研究
  
  ● 重塑優(yōu)化現(xiàn)有超級對齊科學理論與技術(shù)格局
  
  ● 集聚和培養(yǎng)面向通用人工智能和超級智能的人工智能安全與超級對齊創(chuàng)新人才
  
  研究成果
  
  ● 重新定義超級對齊:從弱至強對齊到人機協(xié)同對齊,邁向可持續(xù)共生社會
  
  隨著AI向AGI/ASI演進,確保超級智能與人類意圖和價值觀持續(xù)對齊(超級對齊)成為關鍵。本文重新定義超級對齊為"人類與AI協(xié)同對齊,共同邁向可持續(xù)共生社會",提出整合外部監(jiān)督與內(nèi)生主動對齊的框架:外部監(jiān)督以人為決策核心,結(jié)合可解釋的自動化評估校正機制,確保AI與人類價值觀同步演化與持續(xù)對齊;內(nèi)生主動超級對齊基于認知與共情,主動推斷意圖、明辨善惡。二者協(xié)同實現(xiàn)人機動態(tài)對齊,推動AI向善發(fā)展,服務人類福祉與生態(tài)共生。
 
  
  ● 壓力提示詞: 壓力對大型語言模型和人類的表現(xiàn)有相似的影響嗎?[AAAI 2025]
  
  “壓力提示詞”探討了壓力是否會對大型語言模型造成類似人類的影響。該研究表明,中等度的壓力可以提高模型性能,而過高或過低的壓力會損害性能,這與Yerkes-Dodson法則相匹配。壓力提示詞 可以明顯地改變大型語言模型的內(nèi)部狀態(tài),提供了對人工智能韌性和穩(wěn)定性的新觀念。
 
  
  ● 越獄解藥: 通過稀疏表征調(diào)整解決大型語言模型運行時安全性和實用性的平衡 [ICLR 2025]
  
  “越獄解藥”是一種對大型語言模型進行實時安全控制的創(chuàng)新方法。與傳統(tǒng)的防御不同,這個方法在模型求解時調(diào)整模型內(nèi)部狀態(tài)的稀疏集,從而在不增加計算負擔的情況下實現(xiàn)安全和實用的平衡。通過輕微調(diào)整內(nèi)部表示,可以有效防御越獄攻擊,同時保持模型的性能。在九個大型語言模型和十種攻擊方法上的驗證表明,“越獄解藥”提供了一個輕量穩(wěn)定的解決方案,以便模型在更安全和性能更好的情況下部署。
 
  
  ● 融合自我想象和心智理論實現(xiàn)人類利他價值觀的自主對齊
  
  智能體自主做出利他、安全和道德的決策是與人類價值對齊的重要方面。我們通過賦予智能體自我想象和心智理論能力,使其能夠自主與人類利他價值對齊。在受中國傳統(tǒng)故事《司馬光砸缸》啟發(fā)的沖突性實驗場景中,結(jié)果表明智能體能夠優(yōu)先利他救援,并減少對環(huán)境的負面效應。這項工作初步探索了智能體與人類利他價值的自主對齊,為實現(xiàn)有道德的人工智能奠定了基礎。
  
  學術(shù)帶頭人
  
  內(nèi)容源自實驗室官網(wǎng):
  
  https://beijing.safe-ai-and-superalignment.cn/
  
  更多內(nèi)容