How to Understand ‘Support’? An Implicit-enhanced Causal Inference Approach for Weakly-supervised Phrase Grounding

要約

弱教師付きフレーズグラウンディング (WPG) は、トレーニングに粗粒度の文と画像のペアを利用するだけで、粒度の細かいフレーズ領域のマッチングを推論する新たなタスクです。
しかし、WPG に関する既存の研究は、深いマルチモーダル セマンティクスを理解する際のモデルの能力を評価するために重要である、暗黙的なフレーズ領域の一致関係をほとんど無視しています。
この目的を達成するために、この論文では、暗黙的な関係をモデル化し、明示的なものを超えてそれらを強調するという課題に対処するための暗黙的拡張因果推論 (IECI) アプローチを提案します。
具体的には、このアプローチは介入技術と反事実技術の両方を活用して、上記の 2 つの課題にそれぞれ取り組みます。
さらに、高品質の陰的強化データセットには IECI を評価するためのアノテーションが付けられており、詳細な評価により、最先端のベースラインに対する IECI の大きな利点が示されています。
特に、この陰的強化データセットでは、IECI が高度なマルチモーダル LLM よりも大幅に優れているという興味深い発見が観察されており、この方向でマルチモーダル LLM を評価するためのさらなる研究が促進される可能性があります。

要約(オリジナル)

Weakly-supervised Phrase Grounding (WPG) is an emerging task of inferring the fine-grained phrase-region matching, while merely leveraging the coarse-grained sentence-image pairs for training. However, existing studies on WPG largely ignore the implicit phrase-region matching relations, which are crucial for evaluating the capability of models in understanding the deep multimodal semantics. To this end, this paper proposes an Implicit-Enhanced Causal Inference (IECI) approach to address the challenges of modeling the implicit relations and highlighting them beyond the explicit. Specifically, this approach leverages both the intervention and counterfactual techniques to tackle the above two challenges respectively. Furthermore, a high-quality implicit-enhanced dataset is annotated to evaluate IECI and detailed evaluations show the great advantages of IECI over the state-of-the-art baselines. Particularly, we observe an interesting finding that IECI outperforms the advanced multimodal LLMs by a large margin on this implicit-enhanced dataset, which may facilitate more research to evaluate the multimodal LLMs in this direction.

arxiv情報

著者 Jiamin Luo,Jianing Zhao,Jingjing Wang,Guodong Zhou
発行日 2024-02-29 12:49:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク