Look Before You Decide: Prompting Active Deduction of MLLMs for Assumptive Reasoning

要約

最近、マルチモーダル大規模言語モデル (MLLM) は、その卓越した命令追従機能と広範な世界知識により、複数の分野で大きな成功を収めています。
ただし、これらのMLLMが人間のような構成的推論能力を備えているかどうかは未解決の問題のままです。
彼らの推論行動を明らかにするために、この論文ではまず \textbf{M}究極の \textbf{A} 仮定的な \textbf{R}ea\textbf{s} のベンチマーク (MARS-Bench) を作成します。
興味深いことに、最も一般的な MLLM は、質問に前提を導入することで簡単にだまされることがわかりますが、そのような前提は人間の推論には素朴であるように見えます。
さらに、最終的な決定に達する前にモデルが複合演繹を積極的に実行することを促す、シンプルで効果的な方法である能動演繹法 (AD) も提案します。
提案された AD メソッドを備えた MLLM は、汎用的な質問応答パフォーマンスを損なうことなく、仮定推論能力が大幅に向上していることを示しています。
また、AD メソッドの実験分析とともに、MARS-Bench 上のオープンソースとプライベート MLLM の両方の広範な評価も提供します。

要約(オリジナル)

Recently, Multimodal Large Language Models (MLLMs) have achieved significant success across multiple disciplines due to their exceptional instruction-following capabilities and extensive world knowledge. However, whether these MLLMs possess human-like compositional reasoning abilities remains an open problem. To unveil their reasoning behaviors, we first curate a \textbf{M}ultimodal \textbf{A}ssumptive \textbf{R}ea\textbf{s}oning Benchmark (MARS-Bench) in this paper. Interestingly, we find that most prevalent MLLMs can be easily fooled by the introduction of a presupposition into the question, whereas such presuppositions appear naive to human reasoning. Besides, we also propose a simple yet effective method, Active Deduction (AD), to encourage the model to actively perform composite deduction before reaching a final decision. Equipped with the proposed AD method, a MLLM demonstrates significant improvements in assumptive reasoning abilities without compromising its general-purpose question-answering performance. We also provide extensive evaluations of both open-source and private MLLMs on MARS-Bench, along with experimental analyses of the AD method.

arxiv情報

著者 Yian Li,Wentao Tian,Yang Jiao,Jingjing Chen,Na Zhao,Yu-Gang Jiang
発行日 2024-11-19 15:22:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク