推好自動化科技觀察:全球首個AI對話系統(tǒng)分級定義出爐,和你對話的AI是幾級?
【文章導讀】:近日,由清華大學智能技術(shù)與系統(tǒng)實驗室副主任黃民烈發(fā)起,聯(lián)合十余家科研機構(gòu)和二十多位知名學者共同制定的全球首個《AI對話系統(tǒng)分級定義》正式發(fā)布。
黃民烈表示,AI對話系統(tǒng)任務繁多、評價維度多樣、技術(shù)路線豐富,撰寫小組在制定《分級定義》時僅關注完全由機器主導的對話系統(tǒng)。同時,為了在實際應用中發(fā)揮價值,《分級定義》的制定是從用戶可感知,以及可觀察、可測量、可度量的角度出發(fā),不考慮系統(tǒng)的具體技術(shù)實現(xiàn)方式,也不區(qū)分助理類任務、閑聊、知識對話等,均以“場景”進行表述。
具體來說,L0級的AI對話系統(tǒng)完全沒有自動對話能力或無法給出較高質(zhì)量的對話。L1級能完成單一場景的較高質(zhì)量對話,但無法處理場景之間上下文依賴;L2可以同時完成多個場景的較高質(zhì)量對話,具有處理跨場景的上下文依賴和自然切換能力,但是無法完成新場景較高質(zhì)量的對話。L3級能針對大量場景開展高質(zhì)量對話,同時在新場景中也能有較高質(zhì)量的對話。L4級不僅在新場景中有高質(zhì)量對話能力,還有較高的擬人化程度。L5級則在L4級的基礎上,還能主動學習和持續(xù)學習,具有多模態(tài)感知與表達能力。
全球首個AI對話系統(tǒng)分級定義出爐,和你對話的AI是幾級?
“嘿,Siri”“小度小度”“小愛同學”……只需一句簡單的喚醒語,就能與人工智能(AI)對話、讓AI實現(xiàn)指令。這個場景相信你并不陌生,但你知道跟其他AI相比,和你對話的AI水平如何嗎?
近日,由清華大學智能技術(shù)與系統(tǒng)實驗室副主任黃民烈發(fā)起,聯(lián)合十余家科研機構(gòu)和二十多位知名學者共同制定的全球首個《AI對話系統(tǒng)分級定義》(以下簡稱《分級定義》)正式發(fā)布。
南都·AI前哨站了解到,參照自動駕駛汽車的分級,AI對話系統(tǒng)也被分為L0-L5六個等級。據(jù)測試,在此《分級定義》的標準之下,當前全球AI對話系統(tǒng)水平最高已發(fā)展至L2至L3之間。
AI對話系統(tǒng)被分為L0-L5六個等級
如今,AI對話系統(tǒng)在日常生活中隨處可見。比如銀行、電信服務商配備的自動應答機器人,顯著降低了他們的運營成本;人們在網(wǎng)購時,平臺的智能客服會根據(jù)提問快速給出解決方案。在大數(shù)據(jù)、大算力的支持下,更先進的AI對話系統(tǒng)不僅可以回答用戶的問題,還能以有趣的方式進行各種話題討論。
然而,AI對話系統(tǒng)作為當下AI領域的前沿技術(shù),卻缺乏行業(yè)規(guī)范或統(tǒng)一標準,在實際應用中產(chǎn)生了水平參差不齊、評價體系不一的現(xiàn)狀。
因此,為了更好地評估AI對話系統(tǒng)的能力水平,黃民烈聯(lián)合學界和業(yè)界科研機構(gòu)制定了全球首個《分級定義》,旨在衡量AI對話系統(tǒng)的能力水平,促進AI對話系統(tǒng)的進一步研究,為行業(yè)應用提供參考。
黃民烈講解對話系統(tǒng)分級定義
黃民烈表示,AI對話系統(tǒng)任務繁多、評價維度多樣、技術(shù)路線豐富,撰寫小組在制定《分級定義》時僅關注完全由機器主導的對話系統(tǒng)。同時,為了在實際應用中發(fā)揮價值,《分級定義》的制定是從用戶可感知,以及可觀察、可測量、可度量的角度出發(fā),不考慮系統(tǒng)的具體技術(shù)實現(xiàn)方式,也不區(qū)分助理類任務、閑聊、知識對話等,均以“場景”進行表述。
據(jù)了解,《分級定義》參考了美國汽車工程師協(xié)會(SAE)對自動駕駛汽車的分級定義——自動駕駛按照機器介入程度從無自動駕駛(L0)到完全自動駕駛(L5)分為五個等級。
具體來說,L0級的AI對話系統(tǒng)完全沒有自動對話能力或無法給出較高質(zhì)量的對話。L1級能完成單一場景的較高質(zhì)量對話,但無法處理場景之間上下文依賴;L2可以同時完成多個場景的較高質(zhì)量對話,具有處理跨場景的上下文依賴和自然切換能力,但是無法完成新場景較高質(zhì)量的對話。
L3級能針對大量場景開展高質(zhì)量對話,同時在新場景中也能有較高質(zhì)量的對話。L4級不僅在新場景中有高質(zhì)量對話能力,還有較高的擬人化程度。L5級則在L4級的基礎上,還能主動學習和持續(xù)學習,具有多模態(tài)感知與表達能力。
對話系統(tǒng)分級定義
全球AI對話系統(tǒng)最高等級在L2至L3之間
依據(jù)《分級定義》,黃民烈等研究人員還通過讓一定數(shù)量的測試者與AI對話系統(tǒng)進行充分的對話交互,對常用的一些AI對話系統(tǒng)進行了測試。
在測試之前,測試者被告知系統(tǒng)的能力范圍但不告知系統(tǒng)的技術(shù)實現(xiàn)方式,最后由測試者從相關性(回復與上文的適配度)、信息量(回復是否提供足夠必要的信息,而非通用回復)和自然度(與人類回復相比的自然度,包含語法是否通順、是否包含常識錯誤等)三個維度進行主觀的總評分。
據(jù)InfoQ報道,多位參加制定的專家學者表示,在此《分級定義》的標準之下,當前全球AI對話系統(tǒng)水平最高已發(fā)展至L2至L3之間?,F(xiàn)階段,AI對話系統(tǒng)在從L3向L4邁進的過程中,還面臨諸多挑戰(zhàn)。
小米技術(shù)委員會主任、AI實驗室主任王斌表示,《分級定義》發(fā)布后,AI對話系統(tǒng)能力水平的衡量將有據(jù)可依?!斗旨壎x》讓用戶能夠更多地關注、更清晰地理解AI對話系統(tǒng)及其當前的能力水平;行業(yè)也有了統(tǒng)一的評估規(guī)范,有助于企業(yè)明確研發(fā)方向。
據(jù)悉,該《分級定義》提出之后,黃民烈還將聯(lián)合該領域相關研究機構(gòu)及研究者開展白皮書的編纂,聚焦AI對話系統(tǒng)的發(fā)展歷程,詳細闡釋《分級定義》的制定目的和標準。
采寫:實習生韓艷燕 南都記者蔣琳
微信聯(lián)盟:清華大學微信群、黃民烈微信群、AI微信群、小米微信群、王斌微信群、自動化科技觀察微信群、推好自動化科技觀察微信群,各細分行業(yè)微信群:點擊這里進入。
鴻達安視:水文水利在線監(jiān)測儀器、智慧農(nóng)業(yè)在線監(jiān)測儀器 查看各品牌在細分領域的定位宣傳語


評論排行