要約
相互補強効果(MRE)は、情報抽出とモデルの解釈可能性の交差点の新興サブフィールドです。
MREは、異なる粒度のタスク間の相互理解を活用し、共同モデリングを通じて粗粒と細粒の両方のタスクのパフォーマンスを向上させることを目指しています。
MREはテキストドメインで調査および検証されていますが、視覚ドメインとマルチモーダルドメインへの適用性は未開拓のままです。
この作業では、MREを初めてマルチモーダル情報抽出ドメインに拡張します。
具体的には、新しいタスクを紹介します:マルチモーダル相互補強効果(M-MRE)、およびこのタスクをサポートするために対応するデータセットを構築します。
M-MREによってもたらされる課題に対処するために、さまざまな大きなビジョン言語モデル(LVLMS)と完全に互換性のあるプロンプト形式アダプター(PFA)をさらに提案します。
実験結果は、マルチモーダルのテキストイメージ理解シナリオであるM-MREタスクでもMREが観察できることを示しています。
これは、MREが3つの相互に関連したタスクにわたって相互の利益を促進し、テキストドメインを超えた一般化可能性を確認するという強力な証拠を提供します。
要約(オリジナル)
Mutual Reinforcement Effect (MRE) is an emerging subfield at the intersection of information extraction and model interpretability. MRE aims to leverage the mutual understanding between tasks of different granularities, enhancing the performance of both coarse-grained and fine-grained tasks through joint modeling. While MRE has been explored and validated in the textual domain, its applicability to visual and multimodal domains remains unexplored. In this work, we extend MRE to the multimodal information extraction domain for the first time. Specifically, we introduce a new task: Multimodal Mutual Reinforcement Effect (M-MRE), and construct a corresponding dataset to support this task. To address the challenges posed by M-MRE, we further propose a Prompt Format Adapter (PFA) that is fully compatible with various Large Vision-Language Models (LVLMs). Experimental results demonstrate that MRE can also be observed in the M-MRE task, a multimodal text-image understanding scenario. This provides strong evidence that MRE facilitates mutual gains across three interrelated tasks, confirming its generalizability beyond the textual domain.
arxiv情報
著者 | Chengguang Gan,Sunbowen Lee,Zhixi Cai,Yanbin Wei,Lei Zheng,Yunhao Liang,Shiwen Ni,Tatsunori Mori |
発行日 | 2025-04-24 08:14:36+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google