人工智能安全與超級(jí)對(duì)齊北京市重點(diǎn)實(shí)驗(yàn)室成立,探索人工智能系統(tǒng)安全可控方案
【ZiDongHua 之“智能自動(dòng)化”收錄關(guān)鍵詞: 中科聞歌 人工智能 智能體】
人工智能安全與超級(jí)對(duì)齊北京市重點(diǎn)實(shí)驗(yàn)室成立,探索人工智能系統(tǒng)安全可控方案
近日,人工智能安全與超級(jí)對(duì)齊北京市重點(diǎn)實(shí)驗(yàn)室(Beijing Key Laboratory of Safe AI and Superalignment)在中關(guān)村論壇年會(huì)正式亮相,實(shí)驗(yàn)室由中國(guó)科學(xué)院自動(dòng)化研究所牽頭建設(shè),北京大學(xué)、北京師范大學(xué)參與共建。中國(guó)科學(xué)院自動(dòng)化所研究員、中科聞歌董事長(zhǎng)王磊博士任實(shí)驗(yàn)室副主任。
實(shí)驗(yàn)室與相關(guān)領(lǐng)域的北京市重點(diǎn)實(shí)驗(yàn)室組成“北京人工智能安全治理協(xié)同創(chuàng)新矩陣”,共同構(gòu)建系統(tǒng)化的安全與治理體系。
實(shí)驗(yàn)室簡(jiǎn)介
人工智能安全與超級(jí)對(duì)齊北京市重點(diǎn)實(shí)驗(yàn)室圍繞前沿人工智能技術(shù)帶來(lái)的安全風(fēng)險(xiǎn)及治理需求,重點(diǎn)突破人工智能安全與超級(jí)對(duì)齊技術(shù),探索人工智能系統(tǒng)安全可控方案,實(shí)現(xiàn)對(duì)前沿人工智能模型和超級(jí)智能的有效監(jiān)督指導(dǎo)和風(fēng)險(xiǎn)控制,并在前沿人工智能模型上開展示范應(yīng)用,為通用人工智能的創(chuàng)新發(fā)展構(gòu)筑前沿的安全與治理護(hù)欄,引導(dǎo)超級(jí)智能與人類和諧共生。
實(shí)驗(yàn)室由中國(guó)科學(xué)院自動(dòng)化研究所牽頭建設(shè),北京大學(xué)、北京師范大學(xué)參與共建,組成了人工智能、認(rèn)知心理學(xué)、腦科學(xué)、倫理安全與治理、系統(tǒng)科學(xué)的交叉學(xué)科研究團(tuán)隊(duì),旨在依托和凝聚北京市的優(yōu)勢(shì)跨學(xué)科力量,瞄準(zhǔn)人工智能安全與超級(jí)對(duì)齊領(lǐng)域關(guān)鍵科學(xué)問(wèn)題與實(shí)踐,重塑和優(yōu)化現(xiàn)有人工智能安全和超級(jí)對(duì)齊的科學(xué)與技術(shù)格局,構(gòu)建讓人工智能和超級(jí)智能安全可控的“北京方案”。
科學(xué)研究目標(biāo)
● 研究并構(gòu)建人工智能倫理安全模型與體系
● 發(fā)展融合被動(dòng)風(fēng)險(xiǎn)防范與主動(dòng)設(shè)計(jì)構(gòu)建的安全人工智能新理論與模型
● 探索并發(fā)展融合外部監(jiān)督對(duì)齊與內(nèi)部機(jī)制對(duì)齊的超級(jí)對(duì)齊新理論與技術(shù)
● 構(gòu)建讓人工智能安全可控的超級(jí)對(duì)齊“北京方案”
建設(shè)發(fā)展目標(biāo)
● 建設(shè)成為國(guó)際知名的人工智能安全與超級(jí)對(duì)齊前沿交叉研究基地
● 凝聚北京市優(yōu)勢(shì)跨學(xué)科研發(fā)力量,前瞻布局引領(lǐng)人工智能安全與超級(jí)對(duì)齊前沿研究
● 重塑優(yōu)化現(xiàn)有超級(jí)對(duì)齊科學(xué)理論與技術(shù)格局
● 集聚和培養(yǎng)面向通用人工智能和超級(jí)智能的人工智能安全與超級(jí)對(duì)齊創(chuàng)新人才
研究成果
● 重新定義超級(jí)對(duì)齊:從弱至強(qiáng)對(duì)齊到人機(jī)協(xié)同對(duì)齊,邁向可持續(xù)共生社會(huì)
隨著AI向AGI/ASI演進(jìn),確保超級(jí)智能與人類意圖和價(jià)值觀持續(xù)對(duì)齊(超級(jí)對(duì)齊)成為關(guān)鍵。本文重新定義超級(jí)對(duì)齊為"人類與AI協(xié)同對(duì)齊,共同邁向可持續(xù)共生社會(huì)",提出整合外部監(jiān)督與內(nèi)生主動(dòng)對(duì)齊的框架:外部監(jiān)督以人為決策核心,結(jié)合可解釋的自動(dòng)化評(píng)估校正機(jī)制,確保AI與人類價(jià)值觀同步演化與持續(xù)對(duì)齊;內(nèi)生主動(dòng)超級(jí)對(duì)齊基于認(rèn)知與共情,主動(dòng)推斷意圖、明辨善惡。二者協(xié)同實(shí)現(xiàn)人機(jī)動(dòng)態(tài)對(duì)齊,推動(dòng)AI向善發(fā)展,服務(wù)人類福祉與生態(tài)共生。

● 壓力提示詞: 壓力對(duì)大型語(yǔ)言模型和人類的表現(xiàn)有相似的影響嗎?[AAAI 2025]
“壓力提示詞”探討了壓力是否會(huì)對(duì)大型語(yǔ)言模型造成類似人類的影響。該研究表明,中等度的壓力可以提高模型性能,而過(guò)高或過(guò)低的壓力會(huì)損害性能,這與Yerkes-Dodson法則相匹配。壓力提示詞 可以明顯地改變大型語(yǔ)言模型的內(nèi)部狀態(tài),提供了對(duì)人工智能韌性和穩(wěn)定性的新觀念。

● 越獄解藥: 通過(guò)稀疏表征調(diào)整解決大型語(yǔ)言模型運(yùn)行時(shí)安全性和實(shí)用性的平衡 [ICLR 2025]
“越獄解藥”是一種對(duì)大型語(yǔ)言模型進(jìn)行實(shí)時(shí)安全控制的創(chuàng)新方法。與傳統(tǒng)的防御不同,這個(gè)方法在模型求解時(shí)調(diào)整模型內(nèi)部狀態(tài)的稀疏集,從而在不增加計(jì)算負(fù)擔(dān)的情況下實(shí)現(xiàn)安全和實(shí)用的平衡。通過(guò)輕微調(diào)整內(nèi)部表示,可以有效防御越獄攻擊,同時(shí)保持模型的性能。在九個(gè)大型語(yǔ)言模型和十種攻擊方法上的驗(yàn)證表明,“越獄解藥”提供了一個(gè)輕量穩(wěn)定的解決方案,以便模型在更安全和性能更好的情況下部署。

● 融合自我想象和心智理論實(shí)現(xiàn)人類利他價(jià)值觀的自主對(duì)齊
智能體自主做出利他、安全和道德的決策是與人類價(jià)值對(duì)齊的重要方面。我們通過(guò)賦予智能體自我想象和心智理論能力,使其能夠自主與人類利他價(jià)值對(duì)齊。在受中國(guó)傳統(tǒng)故事《司馬光砸缸》啟發(fā)的沖突性實(shí)驗(yàn)場(chǎng)景中,結(jié)果表明智能體能夠優(yōu)先利他救援,并減少對(duì)環(huán)境的負(fù)面效應(yīng)。這項(xiàng)工作初步探索了智能體與人類利他價(jià)值的自主對(duì)齊,為實(shí)現(xiàn)有道德的人工智能奠定了基礎(chǔ)。
學(xué)術(shù)帶頭人
內(nèi)容源自實(shí)驗(yàn)室官網(wǎng):
https://beijing.safe-ai-and-superalignment.cn/
更多內(nèi)容
我要收藏
點(diǎn)個(gè)贊吧
轉(zhuǎn)發(fā)分享
咨詢?cè)斍椋?/strong>如需咨詢文中涉及的相關(guān)產(chǎn)品或解決方案詳情,請(qǐng)加微信:ZiDongHuaX 。
微信聯(lián)盟:人工智能微信群、智能體微信群,各細(xì)分行業(yè)微信群:點(diǎn)擊這里進(jìn)入。
鴻達(dá)安視:水文水利在線監(jiān)測(cè)儀器、智慧農(nóng)業(yè)在線監(jiān)測(cè)儀器 查看各品牌在細(xì)分領(lǐng)域的定位宣傳語(yǔ)
微信聯(lián)盟:人工智能微信群、智能體微信群,各細(xì)分行業(yè)微信群:點(diǎn)擊這里進(jìn)入。
鴻達(dá)安視:水文水利在線監(jiān)測(cè)儀器、智慧農(nóng)業(yè)在線監(jiān)測(cè)儀器 查看各品牌在細(xì)分領(lǐng)域的定位宣傳語(yǔ)


評(píng)論排行