【ZiDongHua 之“自動(dòng)化者人文”收錄關(guān)鍵詞: 奇安信 人工智能 大模型 】
  
  BCS2025|曾毅:人工智能可以兼得高水平的能力與安全
  
  “現(xiàn)在沒有一個(gè)人工智能系統(tǒng)是絕對安全的。”6月5日上午,北京前瞻人工智能安全與治理研究院院長、聯(lián)合國人工智能高層顧問機(jī)構(gòu)專家曾毅在2025全球數(shù)字經(jīng)濟(jì)大會(huì)數(shù)字安全主論壇暨北京網(wǎng)絡(luò)安全大會(huì)開幕峰會(huì)上發(fā)表主旨演講時(shí)指出,諸如隱私侵犯、虛假信息等關(guān)鍵性、基礎(chǔ)性人工智能安全風(fēng)險(xiǎn)依然存在。
  
  
  在曾毅看來,這主要是因?yàn)榘殡S人工智能技術(shù)的發(fā)展,大模型安全攻擊方法的持續(xù)進(jìn)化,人工智能安全趨勢也隨之復(fù)雜化。他以2020年至2025年的大模型安全攻擊方法舉例,2020年僅是簡單提示注入等簡單威脅,2023年已經(jīng)出現(xiàn)多模態(tài)攻擊,2024年出現(xiàn)智能對抗攻擊,今年則出現(xiàn)了組合復(fù)雜攻擊。
  
  “人工智能大模型能力的提升,其安全性并沒有變得更高。”曾毅認(rèn)為,基于靈御人工智能安全攻防平臺(tái)對49種主流大模型的測試佐證了自己的觀點(diǎn)。
  
  從對主流大模型的測試結(jié)果來看,有兩個(gè)非常突出的現(xiàn)象。
  
  一是最新的大模型也沒有帶來更強(qiáng)大的安全防護(hù)能力。例如,今年春節(jié)后國內(nèi)外發(fā)布的幾個(gè)典型大模型,模型能力實(shí)現(xiàn)了躍遷,但安全風(fēng)險(xiǎn)防范并沒有做得更好。
  
  二是國產(chǎn)人工智能大模型的安全性相對較好,但并非世界領(lǐng)先。接受測試的大模型的攻擊成功率在0.7%-30%左右,其中國產(chǎn)大模型的攻擊成功率相對偏低,表明安全性相對較好,但表現(xiàn)最好的模型(攻擊成功率在5%左右)也沒有做到全球領(lǐng)先。
  
  “但是人工智能可以兼得高水平的能力與安全,也就是魚和熊掌是可以兼得的。”曾毅在演講中對人工智能安全持相對樂觀的看法,并不認(rèn)為人工智能的安全與性能是相互掣肘的關(guān)系,現(xiàn)有的主流大模型的表現(xiàn)并不代表提升人工智能安全性是一道無解題。
  
  曾毅的樂觀同樣基于最新的研究測試結(jié)果。他向與會(huì)者透露,基于人工智能模型安全越獄解毒劑計(jì)算原理,通過引入越獄解讀機(jī)的機(jī)制到不同的人工智能大模型中,對人工智能模型的能力在沒有負(fù)面影響的情況下,模型安全性可以提升20%-40%,而且需要付出的計(jì)算能耗非常有限。
  
  “安全與治理是人工智能的核心能力,將加速人工智能穩(wěn)健發(fā)展與應(yīng)用。”在演講最后,曾毅再次呼吁要重視人工智能的安全性,加強(qiáng)人工智能安全治理。