人工智能安全與超級對齊北京市重點實驗室成立,探索人工智能系統(tǒng)安全可控方案
【ZiDongHua 之“智能自動化”收錄關鍵詞: 中科聞歌 人工智能 智能體】
人工智能安全與超級對齊北京市重點實驗室成立,探索人工智能系統(tǒng)安全可控方案
近日,人工智能安全與超級對齊北京市重點實驗室(Beijing Key Laboratory of Safe AI and Superalignment)在中關村論壇年會正式亮相,實驗室由中國科學院自動化研究所牽頭建設,北京大學、北京師范大學參與共建。中國科學院自動化所研究員、中科聞歌董事長王磊博士任實驗室副主任。
實驗室與相關領域的北京市重點實驗室組成“北京人工智能安全治理協(xié)同創(chuàng)新矩陣”,共同構(gòu)建系統(tǒng)化的安全與治理體系。
實驗室簡介
人工智能安全與超級對齊北京市重點實驗室圍繞前沿人工智能技術(shù)帶來的安全風險及治理需求,重點突破人工智能安全與超級對齊技術(shù),探索人工智能系統(tǒng)安全可控方案,實現(xiàn)對前沿人工智能模型和超級智能的有效監(jiān)督指導和風險控制,并在前沿人工智能模型上開展示范應用,為通用人工智能的創(chuàng)新發(fā)展構(gòu)筑前沿的安全與治理護欄,引導超級智能與人類和諧共生。
實驗室由中國科學院自動化研究所牽頭建設,北京大學、北京師范大學參與共建,組成了人工智能、認知心理學、腦科學、倫理安全與治理、系統(tǒng)科學的交叉學科研究團隊,旨在依托和凝聚北京市的優(yōu)勢跨學科力量,瞄準人工智能安全與超級對齊領域關鍵科學問題與實踐,重塑和優(yōu)化現(xiàn)有人工智能安全和超級對齊的科學與技術(shù)格局,構(gòu)建讓人工智能和超級智能安全可控的“北京方案”。
科學研究目標
● 研究并構(gòu)建人工智能倫理安全模型與體系
● 發(fā)展融合被動風險防范與主動設計構(gòu)建的安全人工智能新理論與模型
● 探索并發(fā)展融合外部監(jiān)督對齊與內(nèi)部機制對齊的超級對齊新理論與技術(shù)
● 構(gòu)建讓人工智能安全可控的超級對齊“北京方案”
建設發(fā)展目標
● 建設成為國際知名的人工智能安全與超級對齊前沿交叉研究基地
● 凝聚北京市優(yōu)勢跨學科研發(fā)力量,前瞻布局引領人工智能安全與超級對齊前沿研究
● 重塑優(yōu)化現(xiàn)有超級對齊科學理論與技術(shù)格局
● 集聚和培養(yǎng)面向通用人工智能和超級智能的人工智能安全與超級對齊創(chuàng)新人才
研究成果
● 重新定義超級對齊:從弱至強對齊到人機協(xié)同對齊,邁向可持續(xù)共生社會
隨著AI向AGI/ASI演進,確保超級智能與人類意圖和價值觀持續(xù)對齊(超級對齊)成為關鍵。本文重新定義超級對齊為"人類與AI協(xié)同對齊,共同邁向可持續(xù)共生社會",提出整合外部監(jiān)督與內(nèi)生主動對齊的框架:外部監(jiān)督以人為決策核心,結(jié)合可解釋的自動化評估校正機制,確保AI與人類價值觀同步演化與持續(xù)對齊;內(nèi)生主動超級對齊基于認知與共情,主動推斷意圖、明辨善惡。二者協(xié)同實現(xiàn)人機動態(tài)對齊,推動AI向善發(fā)展,服務人類福祉與生態(tài)共生。

● 壓力提示詞: 壓力對大型語言模型和人類的表現(xiàn)有相似的影響嗎?[AAAI 2025]
“壓力提示詞”探討了壓力是否會對大型語言模型造成類似人類的影響。該研究表明,中等度的壓力可以提高模型性能,而過高或過低的壓力會損害性能,這與Yerkes-Dodson法則相匹配。壓力提示詞 可以明顯地改變大型語言模型的內(nèi)部狀態(tài),提供了對人工智能韌性和穩(wěn)定性的新觀念。

● 越獄解藥: 通過稀疏表征調(diào)整解決大型語言模型運行時安全性和實用性的平衡 [ICLR 2025]
“越獄解藥”是一種對大型語言模型進行實時安全控制的創(chuàng)新方法。與傳統(tǒng)的防御不同,這個方法在模型求解時調(diào)整模型內(nèi)部狀態(tài)的稀疏集,從而在不增加計算負擔的情況下實現(xiàn)安全和實用的平衡。通過輕微調(diào)整內(nèi)部表示,可以有效防御越獄攻擊,同時保持模型的性能。在九個大型語言模型和十種攻擊方法上的驗證表明,“越獄解藥”提供了一個輕量穩(wěn)定的解決方案,以便模型在更安全和性能更好的情況下部署。

● 融合自我想象和心智理論實現(xiàn)人類利他價值觀的自主對齊
智能體自主做出利他、安全和道德的決策是與人類價值對齊的重要方面。我們通過賦予智能體自我想象和心智理論能力,使其能夠自主與人類利他價值對齊。在受中國傳統(tǒng)故事《司馬光砸缸》啟發(fā)的沖突性實驗場景中,結(jié)果表明智能體能夠優(yōu)先利他救援,并減少對環(huán)境的負面效應。這項工作初步探索了智能體與人類利他價值的自主對齊,為實現(xiàn)有道德的人工智能奠定了基礎。
學術(shù)帶頭人
內(nèi)容源自實驗室官網(wǎng):
https://beijing.safe-ai-and-superalignment.cn/
更多內(nèi)容
我要收藏
點個贊吧
轉(zhuǎn)發(fā)分享
咨詢詳情:如需咨詢文中涉及的相關產(chǎn)品或解決方案詳情,請加微信:ZiDongHuaX 。
微信聯(lián)盟:人工智能微信群、智能體微信群,各細分行業(yè)微信群:點擊這里進入。
鴻達安視:水文水利在線監(jiān)測儀器、智慧農(nóng)業(yè)在線監(jiān)測儀器 查看各品牌在細分領域的定位宣傳語
微信聯(lián)盟:人工智能微信群、智能體微信群,各細分行業(yè)微信群:點擊這里進入。
鴻達安視:水文水利在線監(jiān)測儀器、智慧農(nóng)業(yè)在線監(jiān)測儀器 查看各品牌在細分領域的定位宣傳語


評論排行