A Picture Is Worth a Graph: A Blueprint Debate Paradigm for Multimodal Reasoning

要約

この論文は、マルチエージェントの議論をマルチモーダル推論に導入することを目的としたパイロット研究を紹介します。
この研究では、過度の要約による意見の矮小化と、画像から導入された注意をそらす概念によって焦点がそらされるという 2 つの重要な課題に取り組んでいます。
これらの課題は、既存の議論スキームの帰納的 (ボトムアップ) 性質から生じています。
この問題に対処するために、私たちは、Blueprint Debate on Graphs (BDoG) と呼ばれる演繹的 (トップダウン) 討論アプローチを提案します。
BDoG では、世界レベルの要約による意見の矮小化を防ぐために、議論は青写真のグラフに限定されます。
さらに、BDoG はグラフ内の分岐に証拠を保存することで、頻繁に発生する無関係な概念によって引き起こされる注意散漫を軽減します。
広範な実験により、BDoG が ScienceQA と MMBench で従来の方法に比べて大幅に改善された最先端の結果を達成できることが検証されています。
ソース コードには https://github.com/thecharm/BDoG からアクセスできます。

要約(オリジナル)

This paper presents a pilot study aimed at introducing multi-agent debate into multimodal reasoning. The study addresses two key challenges: the trivialization of opinions resulting from excessive summarization and the diversion of focus caused by distractor concepts introduced from images. These challenges stem from the inductive (bottom-up) nature of existing debating schemes. To address the issue, we propose a deductive (top-down) debating approach called Blueprint Debate on Graphs (BDoG). In BDoG, debates are confined to a blueprint graph to prevent opinion trivialization through world-level summarization. Moreover, by storing evidence in branches within the graph, BDoG mitigates distractions caused by frequent but irrelevant concepts. Extensive experiments validate that BDoG is able to achieve state-of-the-art results in ScienceQA and MMBench with significant improvements over previous methods. The source code can be accessed at https://github.com/thecharm/BDoG.

arxiv情報

著者 Changmeng Zheng,Dayong Liang,Wengyu Zhang,Xiao-Yong Wei,Tat-Seng Chua,Qing Li
発行日 2024-08-06 09:45:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.MA, cs.MM パーマリンク