The Mirage of Multimodality: Where Truth is Tested and Honesty Unravels

要約

推論モデルは最近、特に複雑な推論を伴うタスクについて、大きな注目を集めています。
それらの強みは、システムI(迅速、ヒューリスティック駆動型)とは対照的に、システムIIパラダイム(ゆっくり、構造化された思考)を例示しています。
しかし、推論が遅いことは必然的により大きな真実性につながりますか?
私たちの調査結果はそうでないことを示唆しています。
この研究では、マルチモーダルコンテキストでのシステムIおよびシステムII推論に関連する歪みの最初の体系的な調査を提示します。
不完全または誤解を招く視覚入力を提示すると、より遅い推論モデルが、「マルチモダリティのmi気楼」と呼ばれる現象です。
これを調べるために、50人の人間の参加者が注釈を付けた5,000サンプルの階層プロンプトデータセットを構築しました。
これらのプロンプトは徐々に複雑さを増加させ、一貫したパターンを明らかにします。より遅い推論モデルは、深さ最初の思考を採用する傾向があります(間違った施設をより深く掘り下げます)。
私たちの結果は、より遅い推論モデルの重大な脆弱性を強調しています。数学などの構造化されたドメインでは非常に効果的ですが、あいまいなマルチモーダル入力に直面すると脆くなります。

要約(オリジナル)

Reasoning models have recently attracted significant attention, especially for tasks that involve complex inference. Their strengths exemplify the System II paradigm (slow, structured thinking), contrasting with the System I (rapid, heuristic-driven). Yet, does slower reasoning necessarily lead to greater truthfulness? Our findings suggest otherwise. In this study, we present the first systematic investigation of distortions associated with System I and System II reasoning in multimodal contexts. We demonstrate that slower reasoning models, when presented with incomplete or misleading visual inputs, are more likely to fabricate plausible yet false details to support flawed reasoning — a phenomenon we term the ‘Mirage of Multimodality’. To examine this, we constructed a 5,000-sample hierarchical prompt dataset annotated by 50 human participants. These prompts gradually increase in complexity, revealing a consistent pattern: slower reasoning models tend to employ depth-first thinking (delving deeper into incorrect premises), whereas faster chat models favor breadth-first inference, exhibiting greater caution under uncertainty. Our results highlight a critical vulnerability of slower reasoning models: although highly effective in structured domains such as mathematics, it becomes brittle when confronted with ambiguous multimodal inputs.

arxiv情報

著者 Jiaming Ji,Sitong Fang,Wenjing Cao,Jiahao Li,Xuyao Wang,Juntao Dai,Chi-Min Chan,Sirui Han,Yike Guo,Yaodong Yang
発行日 2025-05-26 16:55:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI パーマリンク