【ZiDongHua之“智能自動(dòng)化”收錄關(guān)鍵詞:中科院自動(dòng)化所 機(jī)器視覺(jué)   MLLM  大模型  模式識(shí)別   】

 

大模型全軍覆沒(méi)?中科院發(fā)布MV-MATH新基準(zhǔn)挑戰(zhàn)數(shù)學(xué)推理

 

近日,中國(guó)科學(xué)院自動(dòng)化研究所推出了一項(xiàng)全新的多圖數(shù)學(xué)推理基準(zhǔn)MV-MATH,該研究已被CVPR2025接收。MV-MATH旨在全面評(píng)估多模態(tài)大語(yǔ)言模型(MLLM)在復(fù)雜視覺(jué)場(chǎng)景中的數(shù)學(xué)推理能力。然而,實(shí)驗(yàn)結(jié)果令人吃驚:主流大模型如GPT-4o和QvQ的分?jǐn)?shù)分別為32.1和29.3,均未達(dá)到及格線。這背后是怎樣的故事?

傳統(tǒng)的多模態(tài)大模型在數(shù)學(xué)推理方面本已展現(xiàn)出潛力,但大部分現(xiàn)有的測(cè)試僅限于單一視覺(jué)場(chǎng)景,這與現(xiàn)實(shí)生活中的復(fù)雜數(shù)學(xué)問(wèn)題存在顯著差距。MV-MATH數(shù)據(jù)集特別設(shè)計(jì),包含2009個(gè)高質(zhì)量的數(shù)學(xué)問(wèn)題,從K-12教育中提取而來(lái),結(jié)合了2至8張相關(guān)圖像和文本,以構(gòu)建多圖推理的復(fù)雜場(chǎng)景。

數(shù)據(jù)集的特點(diǎn)包括:

  1. 多視覺(jué)場(chǎng)景:每個(gè)問(wèn)題集合中包含多個(gè)耦合的圖像,提供了更貼近真實(shí)世界的考試場(chǎng)景。
  2. 豐富的標(biāo)注:確保問(wèn)題和解答的質(zhì)量,每個(gè)樣本均經(jīng)過(guò)至少兩名標(biāo)注者驗(yàn)證,并附有答案解析。
  3. 多樣化的數(shù)學(xué)領(lǐng)域:覆蓋11個(gè)數(shù)學(xué)領(lǐng)域,包括算術(shù)、幾何等,且通過(guò)問(wèn)題的難度分為三個(gè)等級(jí)。
  4. 圖像關(guān)聯(lián)性:數(shù)據(jù)集分為相互依賴集(MD)和獨(dú)立集(ID),探究不同圖像間的關(guān)系如何影響推理。

在評(píng)測(cè)階段,MV-MATH對(duì)24個(gè)主流多模態(tài)大模型進(jìn)行了全面測(cè)試,結(jié)果顯示,最好的模型Claude-3.5的準(zhǔn)確率也僅為33.9%——遠(yuǎn)低于人類的76.5%。在各個(gè)子領(lǐng)域的表現(xiàn)也存在較大差異,比如在算術(shù)領(lǐng)域的表現(xiàn)明顯好于組合幾何,后者準(zhǔn)確率僅為27%。

通過(guò)分析模型在不同難度題目中的表現(xiàn),發(fā)現(xiàn)簡(jiǎn)單問(wèn)題中GPT-4o的準(zhǔn)確率最高。而在涉及依賴多圖的題目中,模型普遍面臨巨大挑戰(zhàn),尤其是需要更高層次跨圖像理解的MD子集。

該研究的意義在于深入探索MLLM在復(fù)雜多視覺(jué)場(chǎng)景中的數(shù)學(xué)推理能力,無(wú)疑為未來(lái)的研究提供了新的方向。盡管當(dāng)前的多模態(tài)模型在表現(xiàn)上與人類水平仍有差距,但MV-MATH的推出為推動(dòng)數(shù)學(xué)推理領(lǐng)域的進(jìn)步開(kāi)辟了新的道路。