要約
この文書では、解決不可能な問題検出 (UPD) と呼ばれる、ビジョン言語モデル (VLM) に対する新規かつ重要な課題を紹介します。
UPD は、Visual Question Answering (VQA) タスクのコンテキストで解決できない問題に直面したときに、回答を差し控える VLM の能力を検査します。
UPD には、欠席解答検出 (AAD)、互換性のない解答セット検出 (IASD)、および互換性のないビジュアル質問検出 (IVQD) の 3 つの異なる設定が含まれています。
UPD 問題を深く調査するための広範な実験により、GPT-4V や LLaVA-Next-34B を含むほとんどの VLM がさまざまな程度でベンチマークに苦戦していることが示され、改善の余地が大きいことが浮き彫りになりました。
UPD に対処するために、私たちはトレーニング不要のソリューションとトレーニングベースのソリューションの両方を調査し、その有効性と限界についての新たな洞察を提供します。
私たちの洞察と、提案されている UPD 設定内での今後の取り組みが、より実用的で信頼性の高い VLM のより広範な理解と開発を促進することを願っています。
要約(オリジナル)
This paper introduces a novel and significant challenge for Vision Language Models (VLMs), termed Unsolvable Problem Detection (UPD). UPD examines the VLM’s ability to withhold answers when faced with unsolvable problems in the context of Visual Question Answering (VQA) tasks. UPD encompasses three distinct settings: Absent Answer Detection (AAD), Incompatible Answer Set Detection (IASD), and Incompatible Visual Question Detection (IVQD). To deeply investigate the UPD problem, extensive experiments indicate that most VLMs, including GPT-4V and LLaVA-Next-34B, struggle with our benchmarks to varying extents, highlighting significant room for the improvements. To address UPD, we explore both training-free and training-based solutions, offering new insights into their effectiveness and limitations. We hope our insights, together with future efforts within the proposed UPD settings, will enhance the broader understanding and development of more practical and reliable VLMs.
arxiv情報
著者 | Atsuyuki Miyai,Jingkang Yang,Jingyang Zhang,Yifei Ming,Qing Yu,Go Irie,Yixuan Li,Hai Li,Ziwei Liu,Kiyoharu Aizawa |
発行日 | 2024-03-29 17:59:53+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google