【ZiDongHua 之“自動(dòng)化者人文”收錄關(guān)鍵詞: 奇安信 人工智能 大模型 】
  
  BCS2025|曾毅:人工智能可以兼得高水平的能力與安全
  
  “現(xiàn)在沒(méi)有一個(gè)人工智能系統(tǒng)是絕對(duì)安全的。”6月5日上午,北京前瞻人工智能安全與治理研究院院長(zhǎng)、聯(lián)合國(guó)人工智能高層顧問(wèn)機(jī)構(gòu)專家曾毅在2025全球數(shù)字經(jīng)濟(jì)大會(huì)數(shù)字安全主論壇暨北京網(wǎng)絡(luò)安全大會(huì)開(kāi)幕峰會(huì)上發(fā)表主旨演講時(shí)指出,諸如隱私侵犯、虛假信息等關(guān)鍵性、基礎(chǔ)性人工智能安全風(fēng)險(xiǎn)依然存在。
  
  
  在曾毅看來(lái),這主要是因?yàn)榘殡S人工智能技術(shù)的發(fā)展,大模型安全攻擊方法的持續(xù)進(jìn)化,人工智能安全趨勢(shì)也隨之復(fù)雜化。他以2020年至2025年的大模型安全攻擊方法舉例,2020年僅是簡(jiǎn)單提示注入等簡(jiǎn)單威脅,2023年已經(jīng)出現(xiàn)多模態(tài)攻擊,2024年出現(xiàn)智能對(duì)抗攻擊,今年則出現(xiàn)了組合復(fù)雜攻擊。
  
  “人工智能大模型能力的提升,其安全性并沒(méi)有變得更高。”曾毅認(rèn)為,基于靈御人工智能安全攻防平臺(tái)對(duì)49種主流大模型的測(cè)試佐證了自己的觀點(diǎn)。
  
  從對(duì)主流大模型的測(cè)試結(jié)果來(lái)看,有兩個(gè)非常突出的現(xiàn)象。
  
  一是最新的大模型也沒(méi)有帶來(lái)更強(qiáng)大的安全防護(hù)能力。例如,今年春節(jié)后國(guó)內(nèi)外發(fā)布的幾個(gè)典型大模型,模型能力實(shí)現(xiàn)了躍遷,但安全風(fēng)險(xiǎn)防范并沒(méi)有做得更好。
  
  二是國(guó)產(chǎn)人工智能大模型的安全性相對(duì)較好,但并非世界領(lǐng)先。接受測(cè)試的大模型的攻擊成功率在0.7%-30%左右,其中國(guó)產(chǎn)大模型的攻擊成功率相對(duì)偏低,表明安全性相對(duì)較好,但表現(xiàn)最好的模型(攻擊成功率在5%左右)也沒(méi)有做到全球領(lǐng)先。
  
  “但是人工智能可以兼得高水平的能力與安全,也就是魚和熊掌是可以兼得的。”曾毅在演講中對(duì)人工智能安全持相對(duì)樂(lè)觀的看法,并不認(rèn)為人工智能的安全與性能是相互掣肘的關(guān)系,現(xiàn)有的主流大模型的表現(xiàn)并不代表提升人工智能安全性是一道無(wú)解題。
  
  曾毅的樂(lè)觀同樣基于最新的研究測(cè)試結(jié)果。他向與會(huì)者透露,基于人工智能模型安全越獄解毒劑計(jì)算原理,通過(guò)引入越獄解讀機(jī)的機(jī)制到不同的人工智能大模型中,對(duì)人工智能模型的能力在沒(méi)有負(fù)面影響的情況下,模型安全性可以提升20%-40%,而且需要付出的計(jì)算能耗非常有限。
  
  “安全與治理是人工智能的核心能力,將加速人工智能穩(wěn)健發(fā)展與應(yīng)用。”在演講最后,曾毅再次呼吁要重視人工智能的安全性,加強(qiáng)人工智能安全治理。