要約
Large Vision-Language Model (LVLM) は最近、マルチモーダル思考連鎖 (MCoT) 推論の進歩など、マルチモーダル タスクにおいて驚くべき成功を収めています。
これらの成功にもかかわらず、現在のベンチマークは依然としてマルチモーダル入力とテキストモーダル出力を使用する従来のパラダイムに従っており、視覚的な操作の欠落や曖昧な表現などの重大な欠点につながっています。
これを動機として、これらの制限に対処するための新しいマルチモーダル思考チェーン (CoMT) ベンチマークを導入します。
従来の MCoT ベンチマークとは異なり、CoMT はマルチモーダル入力とマルチモーダル推論出力の両方を必要とし、本質的に視覚操作を統合する人間のような推論を模倣することを目的としています。
具体的には、CoMT は、(1) ビジュアル作成、(2) ビジュアル削除、(3) ビジュアル更新、(4) ビジュアル選択の 4 つのカテゴリで構成され、実際のシナリオにおける複雑なビジュアル操作と簡潔な表現を包括的に検討します。
CoMT に関するさまざまな LVLM と戦略を評価し、現在のアプローチの機能と限界についての重要な洞察を明らかにします。
私たちは、CoMT が推論プロセスにマルチモーダル生成を導入するさらなる研究を促すことができることを願っています。
要約(オリジナル)
Large Vision-Language Models (LVLMs) have recently demonstrated amazing success in multi-modal tasks, including advancements in Multi-modal Chain-of-Thought (MCoT) reasoning. Despite these successes, current benchmarks still follow a traditional paradigm with multi-modal input and text-modal output, which leads to significant drawbacks such as missing visual operations and vague expressions. Motivated by this, we introduce a novel Chain of Multi-modal Thought (CoMT) benchmark to address these limitations. Different from the traditional MCoT benchmark, CoMT requires both multi-modal input and multi-modal reasoning output, aiming to mimic human-like reasoning that inherently integrates visual operation. Specifically, CoMT consists of four categories: (1) Visual Creation, (2) Visual Deletion, (3) Visual Update, and (4) Visual Selection to comprehensively explore complex visual operations and concise expression in real scenarios. We evaluate various LVLMs and strategies on CoMT, revealing some key insights into the capabilities and limitations of the current approaches. We hope that CoMT can inspire more research on introducing multi-modal generation into the reasoning process.
arxiv情報
著者 | Zihui Cheng,Qiguang Chen,Jin Zhang,Hao Fei,Xiaocheng Feng,Wanxiang Che,Min Li,Libo Qin |
発行日 | 2024-12-17 14:10:16+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google