Visual Grounding with Attention-Driven Constraint Balancing

要約

物体検出とは異なり、視覚接地タスクでは、複雑な自由形式の言語で記述された物体を検出する必要がある。このような複雑な意味表現と視覚表現を同時にモデル化するために、最近の最先端の研究では、両方のモダリティからの特徴を融合する変換器ベースのモデルを採用し、さらに言語表現と整合するように視覚特徴を変調し、無関係な冗長情報を除去する様々なモジュールを導入している。しかしながら、それらの損失関数は、依然として一般的な物体検出損失を採用しており、バウンディングボックス回帰出力のみを支配しており、上記の目的を完全に最適化することができない。この問題に取り組むため、本稿ではまず、変換器ベースのモデルの注意メカニズムを分析する。さらにこれを基に、言語関連領域内の視覚的特徴の振る舞いを最適化する、注意駆動制約バランス(Attention-Driven Constraint Balancing:AttBalance)と名付けた新しいフレームワークを提案する。広範な実験結果は、我々の手法が目覚ましい改善をもたらすことを示している。具体的には、4つの異なるベンチマークで評価した5つの異なるモデルに対して一定の改善を達成した。さらに、我々の手法をQRNetに統合することで、新たな最先端性能を達成した。

要約(オリジナル)

Unlike Object Detection, Visual Grounding task necessitates the detection of an object described by complex free-form language. To simultaneously model such complex semantic and visual representations, recent state-of-the-art studies adopt transformer-based models to fuse features from both modalities, further introducing various modules that modulate visual features to align with the language expressions and eliminate the irrelevant redundant information. However, their loss function, still adopting common Object Detection losses, solely governs the bounding box regression output, failing to fully optimize for the above objectives. To tackle this problem, in this paper, we first analyze the attention mechanisms of transformer-based models. Building upon this, we further propose a novel framework named Attention-Driven Constraint Balancing (AttBalance) to optimize the behavior of visual features within language-relevant regions. Extensive experimental results show that our method brings impressive improvements. Specifically, we achieve constant improvements over five different models evaluated on four different benchmarks. Moreover, we attain a new state-of-the-art performance by integrating our method into QRNet.

arxiv情報

著者 Weitai Kang,Luowei Zhou,Junyi Wu,Changchang Sun,Yan Yan
発行日 2024-07-03 16:14:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク