創(chuàng)新自化成

推好自動化科技觀察：全球首個AI對話系統(tǒng)分級定義出爐，和你對話的AI是幾級?

時間：2022-07-06 08:31:37 發(fā)布：自動化網(wǎng) 來源：搜狐網(wǎng) 南方都市報第一對焦：AI對話系統(tǒng)分級

【文章導讀】：近日，由清華大學智能技術與系統(tǒng)實驗室副主任黃民烈發(fā)起，聯(lián)合十余家科研機構和二十多位知名學者共同制定的全球首個《AI對話系統(tǒng)分級定義》正式發(fā)布。
黃民烈表示，AI對話系統(tǒng)任務繁多、評價維度多樣、技術路線豐富，撰寫小組在制定《分級定義》時僅關注完全由機器主導的對話系統(tǒng)。同時，為了在實際應用中發(fā)揮價值，《分級定義》的制定是從用戶可感知，以及可觀察、可測量、可度量的角度出發(fā)，不考慮系統(tǒng)的具體技術實現(xiàn)方式，也不區(qū)分助理類任務、閑聊、知識對話等，均以“場景”進行表述。
具體來說，L0級的AI對話系統(tǒng)完全沒有自動對話能力或無法給出較高質量的對話。L1級能完成單一場景的較高質量對話，但無法處理場景之間上下文依賴；L2可以同時完成多個場景的較高質量對話，具有處理跨場景的上下文依賴和自然切換能力，但是無法完成新場景較高質量的對話。L3級能針對大量場景開展高質量對話，同時在新場景中也能有較高質量的對話。L4級不僅在新場景中有高質量對話能力，還有較高的擬人化程度。L5級則在L4級的基礎上，還能主動學習和持續(xù)學習，具有多模態(tài)感知與表達能力。

全球首個AI對話系統(tǒng)分級定義出爐，和你對話的AI是幾級?

“嘿，Siri”“小度小度”“小愛同學”……只需一句簡單的喚醒語，就能與人工智能（AI）對話、讓AI實現(xiàn)指令。這個場景相信你并不陌生，但你知道跟其他AI相比，和你對話的AI水平如何嗎？

近日，由清華大學智能技術與系統(tǒng)實驗室副主任黃民烈發(fā)起，聯(lián)合十余家科研機構和二十多位知名學者共同制定的全球首個《AI對話系統(tǒng)分級定義》（以下簡稱《分級定義》）正式發(fā)布。

南都·AI前哨站了解到，參照自動駕駛汽車的分級，AI對話系統(tǒng)也被分為L0-L5六個等級。據(jù)測試，在此《分級定義》的標準之下，當前全球AI對話系統(tǒng)水平最高已發(fā)展至L2至L3之間。

AI對話系統(tǒng)被分為L0-L5六個等級

如今，AI對話系統(tǒng)在日常生活中隨處可見。比如銀行、電信服務商配備的自動應答機器人，顯著降低了他們的運營成本；人們在網(wǎng)購時，平臺的智能客服會根據(jù)提問快速給出解決方案。在大數(shù)據(jù)、大算力的支持下，更先進的AI對話系統(tǒng)不僅可以回答用戶的問題，還能以有趣的方式進行各種話題討論。

然而，AI對話系統(tǒng)作為當下AI領域的前沿技術，卻缺乏行業(yè)規(guī)范或統(tǒng)一標準，在實際應用中產(chǎn)生了水平參差不齊、評價體系不一的現(xiàn)狀。

因此，為了更好地評估AI對話系統(tǒng)的能力水平，黃民烈聯(lián)合學界和業(yè)界科研機構制定了全球首個《分級定義》，旨在衡量AI對話系統(tǒng)的能力水平，促進AI對話系統(tǒng)的進一步研究，為行業(yè)應用提供參考。

黃民烈講解對話系統(tǒng)分級定義

黃民烈表示，AI對話系統(tǒng)任務繁多、評價維度多樣、技術路線豐富，撰寫小組在制定《分級定義》時僅關注完全由機器主導的對話系統(tǒng)。同時，為了在實際應用中發(fā)揮價值，《分級定義》的制定是從用戶可感知，以及可觀察、可測量、可度量的角度出發(fā)，不考慮系統(tǒng)的具體技術實現(xiàn)方式，也不區(qū)分助理類任務、閑聊、知識對話等，均以“場景”進行表述。

據(jù)了解，《分級定義》參考了美國汽車工程師協(xié)會（SAE）對自動駕駛汽車的分級定義——自動駕駛按照機器介入程度從無自動駕駛（L0）到完全自動駕駛（L5）分為五個等級。

具體來說，L0級的AI對話系統(tǒng)完全沒有自動對話能力或無法給出較高質量的對話。L1級能完成單一場景的較高質量對話，但無法處理場景之間上下文依賴；L2可以同時完成多個場景的較高質量對話，具有處理跨場景的上下文依賴和自然切換能力，但是無法完成新場景較高質量的對話。

L3級能針對大量場景開展高質量對話，同時在新場景中也能有較高質量的對話。L4級不僅在新場景中有高質量對話能力，還有較高的擬人化程度。L5級則在L4級的基礎上，還能主動學習和持續(xù)學習，具有多模態(tài)感知與表達能力。

對話系統(tǒng)分級定義

全球AI對話系統(tǒng)最高等級在L2至L3之間

依據(jù)《分級定義》，黃民烈等研究人員還通過讓一定數(shù)量的測試者與AI對話系統(tǒng)進行充分的對話交互，對常用的一些AI對話系統(tǒng)進行了測試。

在測試之前，測試者被告知系統(tǒng)的能力范圍但不告知系統(tǒng)的技術實現(xiàn)方式，最后由測試者從相關性（回復與上文的適配度）、信息量（回復是否提供足夠必要的信息，而非通用回復）和自然度（與人類回復相比的自然度，包含語法是否通順、是否包含常識錯誤等）三個維度進行主觀的總評分。

據(jù)InfoQ報道，多位參加制定的專家學者表示，在此《分級定義》的標準之下，當前全球AI對話系統(tǒng)水平最高已發(fā)展至L2至L3之間?，F(xiàn)階段，AI對話系統(tǒng)在從L3向L4邁進的過程中，還面臨諸多挑戰(zhàn)。

小米技術委員會主任、AI實驗室主任王斌表示，《分級定義》發(fā)布后，AI對話系統(tǒng)能力水平的衡量將有據(jù)可依?！斗旨壎x》讓用戶能夠更多地關注、更清晰地理解AI對話系統(tǒng)及其當前的能力水平；行業(yè)也有了統(tǒng)一的評估規(guī)范，有助于企業(yè)明確研發(fā)方向。

據(jù)悉，該《分級定義》提出之后，黃民烈還將聯(lián)合該領域相關研究機構及研究者開展白皮書的編纂，聚焦AI對話系統(tǒng)的發(fā)展歷程，詳細闡釋《分級定義》的制定目的和標準。

采寫：實習生韓艷燕南都記者蔣琳

我要收藏

點個贊吧

自動對焦：清華大學黃民烈 AI 小米王斌自動化科技觀察推好自動化科技觀察

咨詢詳情：如需咨詢文中涉及的相關產(chǎn)品或解決方案詳情，請加微信：ZiDongHuaX 。

微信聯(lián)盟：清華大學微信群、黃民烈微信群、AI微信群、小米微信群、王斌微信群、自動化科技觀察微信群、推好自動化科技觀察微信群，各細分行業(yè)微信群：點擊這里進入。

鴻達安視：水文水利在線監(jiān)測儀器、智慧農(nóng)業(yè)在線監(jiān)測儀器　　　　　　查看各品牌在細分領域的定位宣傳語