Improving Visual Grounding by Encouraging Consistent Gradient-based Explanations

要約

領域レベルの注釈と一貫性のある勾配ベースの説明を促進する、視覚言語モデルの事前トレーニング用のマージンベースの損失を提案します。
私たちはこの目標をアテンション マスク一貫性 (AMC) と呼び、Faster R-CNN などの物体検出器を明示的にトレーニングするために領域レベルのアノテーションに依存するモデルと比較して、優れた視覚的グラウンディング パフォーマンスを生み出すことを実証します。
AMC は、そのような注釈を含む画像の注釈付き関心領域内に主に注意スコアを集中させる、勾配ベースの説明マスクを奨励することによって機能します。
特に、標準の視覚言語モデリング目標に基づいて AMC でトレーニングされたモデルは、Flickr30k 視覚グラウンディング ベンチマークで 86.59% という最先端の精度を獲得しており、以前の最高のモデルと比較した場合、絶対的に 5.48% の向上を示しています。
私たちのアプローチは、参照式の理解に関する確立されたベンチマークでも非常に優れたパフォーマンスを発揮し、人間の注釈とよりよく整合する勾配ベースの説明の設計による追加の利点を提供します。

要約(オリジナル)

We propose a margin-based loss for vision-language model pretraining that encourages gradient-based explanations that are consistent with region-level annotations. We refer to this objective as Attention Mask Consistency (AMC) and demonstrate that it produces superior visual grounding performance compared to models that rely instead on region-level annotations for explicitly training an object detector such as Faster R-CNN. AMC works by encouraging gradient-based explanation masks that focus their attention scores mostly within annotated regions of interest for images that contain such annotations. Particularly, a model trained with AMC on top of standard vision-language modeling objectives obtains a state-of-the-art accuracy of 86.59% in the Flickr30k visual grounding benchmark, an absolute improvement of 5.48% when compared to the best previous model. Our approach also performs exceedingly well on established benchmarks for referring expression comprehension and offers the added benefit by design of gradient-based explanations that better align with human annotations.

arxiv情報

著者 Ziyan Yang,Kushal Kafle,Franck Dernoncourt,Vicente Ordonez
発行日 2023-06-12 17:59:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV, cs.LG パーマリンク