紫東太初團(tuán)隊(duì)獲ACL 2025 SAC Highlights獎(jiǎng) !讓視覺語(yǔ)言模型學(xué)會(huì)提問:消解視覺問答中的模糊性
【ZiDongHua 之“品牌自定位”收錄關(guān)鍵詞:紫東太初 人工智能 視覺語(yǔ)言模型 】
紫東太初團(tuán)隊(duì)獲ACL 2025 SAC Highlights獎(jiǎng) !讓視覺語(yǔ)言模型學(xué)會(huì)提問:消解視覺問答中的模糊性
摘要
隨著多模態(tài)大模型技術(shù)的快速發(fā)展,視覺語(yǔ)言模型(Vision-Language Models, VLMs)在視覺問答(Visual Question Answering, VQA)等任務(wù)中展現(xiàn)出了卓越的能力。然而,真實(shí)世界中的視覺問題往往存在模糊性,例如指代不清、用戶意圖表達(dá)不完整或拼寫錯(cuò)誤等,使得VLM難以直接給出準(zhǔn)確的回答。近日,紫東太初團(tuán)隊(duì)提出了一種名為ClearVQA的全新基準(zhǔn)與訓(xùn)練方法,首次系統(tǒng)性地研究了VLMs通過主動(dòng)提問進(jìn)行交互式澄清,以消解問題中模糊性的能力,獲得ACL-2025 SAC Highlights獎(jiǎng)項(xiàng)。

視覺問答 (Visual question answering, VQA) 任務(wù)要求模型根據(jù)給定圖像和問題,生成自然語(yǔ)言的答案。然而,用戶的語(yǔ)言表達(dá)差異和習(xí)慣問題,常常導(dǎo)致實(shí)際使用中經(jīng)常出現(xiàn)用戶問題模糊的情形。例如,面對(duì)如圖1所示的視覺問題,用戶可能問:“他們站在什么前面?”但實(shí)際上,用戶可能指的是前景中的食物,也可能是遠(yuǎn)處的餐車。

圖1 在傳統(tǒng)的視覺問答場(chǎng)景中,含糊不清的問題可能會(huì)讓視覺語(yǔ)言模型困惑,導(dǎo)致產(chǎn)生非期望的答案。在這種情況下,我們強(qiáng)調(diào)模型應(yīng)先提出澄清性問題,并根據(jù)用戶反饋生成符合預(yù)期的答案。
在多模態(tài)與VQA領(lǐng)域,已有一些工作研究視覺語(yǔ)言模型如何應(yīng)對(duì)模糊的指令或問題。然而,已有工作僅通過推理可能意圖來解決模糊性,忽略了實(shí)際場(chǎng)景中VLMs可以在與用戶交互的過程中消除視覺問題中存在的模糊性,從而更準(zhǔn)確、具體地生成答案。然而,這種交互式澄清方法的研究尚處于初步階段,主要面臨兩個(gè)關(guān)鍵挑戰(zhàn):缺乏一個(gè)全面有效的基準(zhǔn)來評(píng)估模型的交互式澄清能力;現(xiàn)有的大型VLMs更傾向于直接回答問題,而非主動(dòng)提出澄清問題。為了有效應(yīng)對(duì)上述挑戰(zhàn),紫東太初團(tuán)隊(duì)提出了ClearVQA,一種強(qiáng)調(diào)交互式澄清的VQA基準(zhǔn)和對(duì)應(yīng)的訓(xùn)練方法。

圖2 ClearVQA 基準(zhǔn)中強(qiáng)調(diào)的視覺問題模糊性。(a) 在 ClearVQA 中,模糊性被歸納為三類:指代模糊、意圖不明確和拼寫模糊。Q 表示原始問題,IQ 表示用戶的真實(shí)意圖問題,ICQ 表示理想的澄清性問題,GT 表示真實(shí)答案。(b) 測(cè)試集實(shí)驗(yàn)結(jié)果表明,與表述清晰的 IQ 相比,現(xiàn)有視覺-語(yǔ)言模型(VLM)難以處理相應(yīng)的含糊問題,導(dǎo)致 VQA 準(zhǔn)確率顯著下降。
具體而言,本研究針對(duì)視覺語(yǔ)言模型在處理視覺問答任務(wù)時(shí)遇到的問題模糊性,提出了一個(gè)創(chuàng)新的交互式澄清框架,涉及以下兩個(gè)核心方法: ClearVQA基準(zhǔn)的構(gòu)建:研究團(tuán)隊(duì)首次提出了ClearVQA基準(zhǔn),以系統(tǒng)性地評(píng)估視覺語(yǔ)言模型(VLM)在交互式澄清場(chǎng)景下的表現(xiàn)。如圖2(a)所示,ClearVQA強(qiáng)調(diào)了三類常見的模糊性問題,包括指代模糊(Referential ambiguity)、意圖不明確(Intent underspecification)與拼寫模糊(Spelling ambiguity),涵蓋廣泛的視覺理解、跨模態(tài)推理、知識(shí)推理和場(chǎng)景文本理解場(chǎng)景,提供了詳盡的評(píng)估指標(biāo)用于精確量化模型交互式澄清的能力。如圖2(b)所示,相對(duì)于表述清晰的原始問題,VLMs往往難以回答ClearVQA中引入模糊性后的問題。
針對(duì)交互式澄清能力訓(xùn)練方法:為了有效地賦予模型交互式澄清能力,研究團(tuán)隊(duì)設(shè)計(jì)了一個(gè)完全自動(dòng)化的數(shù)據(jù)生成方法,利用大語(yǔ)言模型(LLM)自動(dòng)構(gòu)建了存在模糊性的視覺問題及其對(duì)應(yīng)的澄清性提問對(duì)。進(jìn)一步通過監(jiān)督微調(diào)(Supervised Fine-Tuning, SFT)和直接偏好優(yōu)化(Direct Preference Optimization, DPO)兩個(gè)訓(xùn)練階段,使得模型能夠主動(dòng)識(shí)別問題中的模糊性并提出合理的澄清問題,以根據(jù)用戶反饋精準(zhǔn)生成答案。
通過這兩個(gè)核心方法,研究團(tuán)隊(duì)在ClearVQA構(gòu)建的訓(xùn)練數(shù)據(jù)上微調(diào)了開源視覺語(yǔ)言模型(如LLaVA),如表1所示的結(jié)果表明,所提出的方法在存在模糊性的問題上顯著優(yōu)于傳統(tǒng)非交互式模型。這證明了交互式澄清在處理現(xiàn)實(shí)世界中視覺問題模糊性時(shí)的巨大潛力和優(yōu)勢(shì)。
表1 基于提出方法訓(xùn)練的,具備交互式模糊性澄清能力的 VLM,在ClearVQA上與通用 VLM的性能對(duì)比。
不僅如此,如表2所示的實(shí)驗(yàn)結(jié)果表明,基于所提出的訓(xùn)練策略,VLMs對(duì)于問題是否存在模糊性的判斷能力甚至優(yōu)于GPT-4V, 甚至是GPT-4o。這意味著我們的訓(xùn)練方法也能夠做到讓VLMs學(xué)會(huì)對(duì)于存在模糊性的問題進(jìn)行交互式澄清的同時(shí),對(duì)表述清晰的問題直接回答。
表2 VLMs區(qū)分問題是否存在模糊性的能力的量化結(jié)果
綜上所述,本研究提出的ClearVQA基準(zhǔn)及相應(yīng)方法,填補(bǔ)了視覺語(yǔ)言模型在交互式澄清領(lǐng)域的空白。這不僅推動(dòng)了多模態(tài)理解領(lǐng)域的理論研究,也對(duì)未來更具人性化和智能化的人工智能系統(tǒng)開發(fā)具有一定影響。論文中提出的ClearVQA基準(zhǔn)已開源,歡迎社區(qū)進(jìn)一步探索與使用。
論文標(biāo)題:Pu Jian, Donglei Yu, Wen Yang, Shuo Ren, Jiajun Zhang. Teaching Vision-Language Models to Ask: Resolving Ambiguity in Visual Questions. ACL-2025 (SAC Highlights)代碼倉(cāng)庫(kù):https://github.com/jian0805/ClearVQA
我要收藏
點(diǎn)個(gè)贊吧
轉(zhuǎn)發(fā)分享
咨詢?cè)斍椋?/strong>如需咨詢文中涉及的相關(guān)產(chǎn)品或解決方案詳情,請(qǐng)加微信:ZiDongHuaX 。
微信聯(lián)盟:人工智能微信群、視覺語(yǔ)言模型微信群,各細(xì)分行業(yè)微信群:點(diǎn)擊這里進(jìn)入。
鴻達(dá)安視:水文水利在線監(jiān)測(cè)儀器、智慧農(nóng)業(yè)在線監(jiān)測(cè)儀器 查看各品牌在細(xì)分領(lǐng)域的定位宣傳語(yǔ)
微信聯(lián)盟:人工智能微信群、視覺語(yǔ)言模型微信群,各細(xì)分行業(yè)微信群:點(diǎn)擊這里進(jìn)入。
鴻達(dá)安視:水文水利在線監(jiān)測(cè)儀器、智慧農(nóng)業(yè)在線監(jiān)測(cè)儀器 查看各品牌在細(xì)分領(lǐng)域的定位宣傳語(yǔ)


評(píng)論排行