要約
近年、アテンション メカニズムにより、主要な特徴情報に焦点を当てることにより、物体検出のパフォーマンスが大幅に向上しました。
しかし、一般的な方法では、ローカル機能とグローバル機能の効果的なバランスをとることが依然として困難に直面しています。
この不均衡により、正確な物体検出を達成するための 2 つの重要な要素である、きめ細かい詳細とより広範なコンテキスト情報の両方を捕捉する能力が妨げられます。これらの課題に対処するために、私たちは、より適切に統合するように設計された、ローカル-グローバル アテンションと呼ばれる新しいアテンション メカニズムを提案します。
ローカルおよびグローバルの両方のコンテキスト機能。
具体的には、私たちのアプローチはマルチスケール畳み込みと位置エンコーディングを組み合わせ、モデルがより広範なグローバルコンテキストを同時に考慮しながら、ローカルの詳細に焦点を当てることを可能にします。
さらに、学習可能なパラメーターを導入します。これにより、タスクの特定の要件に応じて、モデルがローカルおよびグローバルな注意の相対的な重要性を動的に調整できるようになり、それによって複数のスケールにわたって特徴表現が最適化されます。ローカルとグローバルの注意を徹底的に評価しました。
広く使用されているいくつかの物体検出および分類データセットのメカニズム。
私たちの実験結果は、このアプローチがさまざまなスケールでの物体の検出を大幅に強化し、特にマルチクラスおよび小さな物体検出タスクで優れたパフォーマンスを発揮することを示しています。
既存のアテンション メカニズムと比較して、ローカル/グローバル アテンションは、計算効率を維持しながら、いくつかの主要な指標にわたって一貫して優れています。
要約(オリジナル)
In recent years, attention mechanisms have significantly enhanced the performance of object detection by focusing on key feature information. However, prevalent methods still encounter difficulties in effectively balancing local and global features. This imbalance hampers their ability to capture both fine-grained details and broader contextual information-two critical elements for achieving accurate object detection.To address these challenges, we propose a novel attention mechanism, termed Local-Global Attention, which is designed to better integrate both local and global contextual features. Specifically, our approach combines multi-scale convolutions with positional encoding, enabling the model to focus on local details while concurrently considering the broader global context. Additionally, we introduce a learnable parameters, which allow the model to dynamically adjust the relative importance of local and global attention, depending on the specific requirements of the task, thereby optimizing feature representations across multiple scales.We have thoroughly evaluated the Local-Global Attention mechanism on several widely used object detection and classification datasets. Our experimental results demonstrate that this approach significantly enhances the detection of objects at various scales, with particularly strong performance on multi-class and small object detection tasks. In comparison to existing attention mechanisms, Local-Global Attention consistently outperforms them across several key metrics, all while maintaining computational efficiency.
arxiv情報
著者 | Yifan Shao |
発行日 | 2024-11-14 17:22:16+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google