要約
我々は、視覚言語モデルの事前学習において、領域レベルの注釈と整合性のある勾配に基づく説明を促すマージンベースの損失を提案する。この目的をAttention Mask Consistency (AMC)と呼び、Faster R-CNNのような物体検出器を明示的に訓練するために領域レベルの注釈に依存するモデルと比較して、優れた視覚的根拠をもたらすことを実証する。AMCは、注釈を含む画像に対して、注釈された関心領域内のほとんどに注意スコアを集中させる勾配ベースの説明マスクを奨励することによって機能する。特に、標準的な視覚言語モデリングの目的にAMCを加えて学習したモデルは、Flickr30k visual grounding benchmarkにおいて86.59%という最先端の精度を獲得し、以前の最良のモデルと比較して5.48%の絶対的向上を達成しています。また、我々のアプローチは、参照表現理解のための確立されたベンチマークで非常に良いパフォーマンスを示し、人間のアノテーションとより良く整合する勾配ベースの説明の設計によって、追加の利点を提供します。
要約(オリジナル)
We propose a margin-based loss for vision-language model pretraining that encourages gradient-based explanations that are consistent with region-level annotations. We refer to this objective as Attention Mask Consistency (AMC) and demonstrate that it produces superior visual grounding performance compared to models that rely instead on region-level annotations for explicitly training an object detector such as Faster R-CNN. AMC works by encouraging gradient-based explanation masks that focus their attention scores mostly within annotated regions of interest for images that contain such annotations. Particularly, a model trained with AMC on top of standard vision-language modeling objectives obtains a state-of-the-art accuracy of 86.59% in the Flickr30k visual grounding benchmark, an absolute improvement of 5.48% when compared to the best previous model. Our approach also performs exceedingly well on established benchmarks for referring expression comprehension and offers the added benefit by design of gradient-based explanations that better align with human annotations.
arxiv情報
著者 | Ziyan Yang,Kushal Kafle,Franck Dernoncourt,Vicente Ordonez |
発行日 | 2022-07-05 17:28:52+00:00 |
arxivサイト | arxiv_id(pdf) |