要約
このタスクの目的は、追加的な更新に基づいて、画像の前提条件とテキストの仮説の間の連言関係の修正を可能にすることである。この概念は自然言語推論では確立されているが、視覚的含意では未解明である。高度なレベルでは、DVEはモデルによる初期解釈の改良を可能にし、画像中の誤解を招く情報の検出、視覚的質問応答の強化、自律システムにおける意思決定プロセスの改良など、様々な応用における精度と信頼性の向上につながる。既存のメトリクスでは、更新によってもたらされる内包関係の変化を適切に捉えることができない。この問題に対処するため、我々は、ペアワイズ対照学習とカテゴリ情報学習を用い、更新によって引き起こされる含意強度の変化を捉えるように設計された、新しい推論考慮評価器を提案する。さらに、マルチモーダルモデルによって生成される更新の質をさらに高めるために、報酬駆動型の更新最適化手法を導入する。実験結果は、提案する評価器と最適化手法の有効性を示す。
要約(オリジナル)
We introduce a new task called Defeasible Visual Entailment (DVE), where the goal is to allow the modification of the entailment relationship between an image premise and a text hypothesis based on an additional update. While this concept is well-established in Natural Language Inference, it remains unexplored in visual entailment. At a high level, DVE enables models to refine their initial interpretations, leading to improved accuracy and reliability in various applications such as detecting misleading information in images, enhancing visual question answering, and refining decision-making processes in autonomous systems. Existing metrics do not adequately capture the change in the entailment relationship brought by updates. To address this, we propose a novel inference-aware evaluator designed to capture changes in entailment strength induced by updates, using pairwise contrastive learning and categorical information learning. Additionally, we introduce a reward-driven update optimization method to further enhance the quality of updates generated by multimodal models. Experimental results demonstrate the effectiveness of our proposed evaluator and optimization method.
arxiv情報
著者 | Yue Zhang,Liqiang Jing,Vibhav Gogate |
発行日 | 2025-02-03 02:54:56+00:00 |
arxivサイト | arxiv_id(pdf) |