要約
マルチモーダル大規模言語モデル (MLLM) の優れたパフォーマンスは、さまざまな視覚的タスクを処理する際の熟練した理解能力を明確に示しています。
それにもかかわらず、彼らのブラックボックス推論プロセスの不透明な性質は謎として残り、解釈できなくなり、幻覚に悩まされます。
複雑な構成推論タスクを実行する能力も制限されており、最終的にはこれらのモデルの学習の進行が停滞します。
この研究では、MLLM を教えるために忠実で簡潔で転移可能なマルチモーダルな理論的根拠を生成するように設計された新しいパラダイムである Fact を紹介します。
このパラダイムは、検証可能なビジュアル プログラミングを利用して、忠実性と精度を保証する実行可能コードを生成します。
その後、枝刈り、マージ、ブリッジングなどの一連の操作を通じて、理論的根拠の簡潔性が高まります。
さらに、プログラミング パラダイムからエンドツーエンド パラダイムに転送できる理論的根拠をフィルタリングして、転送可能性を保証します。
実験による経験的証拠は、さまざまなパラメータサイズのモデル全体でこの方法の優位性を実証し、構成推論と一般化能力を大幅に強化します。
私たちのアプローチは、画像とテキスト間の高い相関性により幻覚も軽減します。
要約(オリジナル)
The remarkable performance of Multimodal Large Language Models (MLLMs) has unequivocally demonstrated their proficient understanding capabilities in handling a wide array of visual tasks. Nevertheless, the opaque nature of their black-box reasoning processes persists as an enigma, rendering them uninterpretable and struggling with hallucination. Their ability to execute intricate compositional reasoning tasks is also constrained, culminating in a stagnation of learning progression for these models. In this work, we introduce Fact, a novel paradigm designed to generate multimodal rationales that are faithful, concise, and transferable for teaching MLLMs. This paradigm utilizes verifiable visual programming to generate executable code guaranteeing faithfulness and precision. Subsequently, through a series of operations including pruning, merging, and bridging, the rationale enhances its conciseness. Furthermore, we filter rationales that can be transferred to end-to-end paradigms from programming paradigms to guarantee transferability. Empirical evidence from experiments demonstrates the superiority of our method across models of varying parameter sizes, significantly enhancing their compositional reasoning and generalization ability. Our approach also reduces hallucinations owing to its high correlation between images and text.
arxiv情報
著者 | Minghe Gao,Shuang Chen,Liang Pang,Yuan Yao,Jisheng Dang,Wenqiao Zhang,Juncheng Li,Siliang Tang,Yueting Zhuang,Tat-Seng Chua |
発行日 | 2024-08-05 12:39:06+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google