智能自動化

人工智能安全與超級對齊北京市重點實驗室成立，探索人工智能系統(tǒng)安全可控方案

時間：2025-04-28 12:21:37 發(fā)布：tgy 來源：中科聞歌第一對焦：中科聞歌

　　【ZiDongHua 之“智能自動化”收錄關鍵詞：中科聞歌人工智能智能體】

　　人工智能安全與超級對齊北京市重點實驗室成立，探索人工智能系統(tǒng)安全可控方案

　　近日，人工智能安全與超級對齊北京市重點實驗室（Beijing Key Laboratory of Safe AI and Superalignment）在中關村論壇年會正式亮相，實驗室由中國科學院自動化研究所牽頭建設，北京大學、北京師范大學參與共建。中國科學院自動化所研究員、中科聞歌董事長王磊博士任實驗室副主任。

　　實驗室與相關領域的北京市重點實驗室組成“北京人工智能安全治理協(xié)同創(chuàng)新矩陣”，共同構(gòu)建系統(tǒng)化的安全與治理體系。

　　實驗室簡介

　　人工智能安全與超級對齊北京市重點實驗室圍繞前沿人工智能技術(shù)帶來的安全風險及治理需求，重點突破人工智能安全與超級對齊技術(shù)，探索人工智能系統(tǒng)安全可控方案，實現(xiàn)對前沿人工智能模型和超級智能的有效監(jiān)督指導和風險控制，并在前沿人工智能模型上開展示范應用，為通用人工智能的創(chuàng)新發(fā)展構(gòu)筑前沿的安全與治理護欄，引導超級智能與人類和諧共生。

　　實驗室由中國科學院自動化研究所牽頭建設，北京大學、北京師范大學參與共建，組成了人工智能、認知心理學、腦科學、倫理安全與治理、系統(tǒng)科學的交叉學科研究團隊，旨在依托和凝聚北京市的優(yōu)勢跨學科力量，瞄準人工智能安全與超級對齊領域關鍵科學問題與實踐，重塑和優(yōu)化現(xiàn)有人工智能安全和超級對齊的科學與技術(shù)格局，構(gòu)建讓人工智能和超級智能安全可控的“北京方案”。

　　科學研究目標

　　● 研究并構(gòu)建人工智能倫理安全模型與體系

　　● 發(fā)展融合被動風險防范與主動設計構(gòu)建的安全人工智能新理論與模型

　　● 探索并發(fā)展融合外部監(jiān)督對齊與內(nèi)部機制對齊的超級對齊新理論與技術(shù)

　　● 構(gòu)建讓人工智能安全可控的超級對齊“北京方案”

　　建設發(fā)展目標

　　● 建設成為國際知名的人工智能安全與超級對齊前沿交叉研究基地

　　● 凝聚北京市優(yōu)勢跨學科研發(fā)力量，前瞻布局引領人工智能安全與超級對齊前沿研究

　　● 重塑優(yōu)化現(xiàn)有超級對齊科學理論與技術(shù)格局

　　● 集聚和培養(yǎng)面向通用人工智能和超級智能的人工智能安全與超級對齊創(chuàng)新人才

　　研究成果

　　● 重新定義超級對齊：從弱至強對齊到人機協(xié)同對齊，邁向可持續(xù)共生社會

　　隨著AI向AGI/ASI演進，確保超級智能與人類意圖和價值觀持續(xù)對齊（超級對齊）成為關鍵。本文重新定義超級對齊為"人類與AI協(xié)同對齊，共同邁向可持續(xù)共生社會"，提出整合外部監(jiān)督與內(nèi)生主動對齊的框架：外部監(jiān)督以人為決策核心，結(jié)合可解釋的自動化評估校正機制，確保AI與人類價值觀同步演化與持續(xù)對齊；內(nèi)生主動超級對齊基于認知與共情，主動推斷意圖、明辨善惡。二者協(xié)同實現(xiàn)人機動態(tài)對齊，推動AI向善發(fā)展，服務人類福祉與生態(tài)共生。

　　● 壓力提示詞: 壓力對大型語言模型和人類的表現(xiàn)有相似的影響嗎？[AAAI 2025]

　　“壓力提示詞”探討了壓力是否會對大型語言模型造成類似人類的影響。該研究表明，中等度的壓力可以提高模型性能，而過高或過低的壓力會損害性能，這與Yerkes-Dodson法則相匹配。壓力提示詞可以明顯地改變大型語言模型的內(nèi)部狀態(tài)，提供了對人工智能韌性和穩(wěn)定性的新觀念。

　　● 越獄解藥: 通過稀疏表征調(diào)整解決大型語言模型運行時安全性和實用性的平衡 [ICLR 2025]

　　“越獄解藥”是一種對大型語言模型進行實時安全控制的創(chuàng)新方法。與傳統(tǒng)的防御不同，這個方法在模型求解時調(diào)整模型內(nèi)部狀態(tài)的稀疏集，從而在不增加計算負擔的情況下實現(xiàn)安全和實用的平衡。通過輕微調(diào)整內(nèi)部表示，可以有效防御越獄攻擊，同時保持模型的性能。在九個大型語言模型和十種攻擊方法上的驗證表明，“越獄解藥”提供了一個輕量穩(wěn)定的解決方案，以便模型在更安全和性能更好的情況下部署。

　　● 融合自我想象和心智理論實現(xiàn)人類利他價值觀的自主對齊

　　智能體自主做出利他、安全和道德的決策是與人類價值對齊的重要方面。我們通過賦予智能體自我想象和心智理論能力，使其能夠自主與人類利他價值對齊。在受中國傳統(tǒng)故事《司馬光砸缸》啟發(fā)的沖突性實驗場景中，結(jié)果表明智能體能夠優(yōu)先利他救援，并減少對環(huán)境的負面效應。這項工作初步探索了智能體與人類利他價值的自主對齊，為實現(xiàn)有道德的人工智能奠定了基礎。

　　學術(shù)帶頭人

　　內(nèi)容源自實驗室官網(wǎng)：

　　https://beijing.safe-ai-and-superalignment.cn/

　　更多內(nèi)容

我要收藏

點個贊吧

自動對焦：人工智能智能體

咨詢詳情：如需咨詢文中涉及的相關產(chǎn)品或解決方案詳情，請加微信：ZiDongHuaX 。

微信聯(lián)盟：人工智能微信群、智能體微信群，各細分行業(yè)微信群：點擊這里進入。

鴻達安視：水文水利在線監(jiān)測儀器、智慧農(nóng)業(yè)在線監(jiān)測儀器　　　　　　查看各品牌在細分領域的定位宣傳語