要約
このホワイトペーパーでは、マルチスケールリレーションモデリングを通じてDETRベースのオブジェクト検出を強化する新しいアプローチであるLP-DERT(レイヤーごとのプログレッシブDETR)を紹介します。
私たちの方法は、デコーダー層全体でさまざまな関係(ローカル、メディア、グローバル)のバランスをとることを適応的に学習する、関係認識の自己触媒メカニズムを通じて、オブジェクトクエリ間の学習可能な空間的関係を導入します。
このプログレッシブ設計により、モデルは検出パイプライン全体で進化する空間依存関係を効果的にキャプチャできます。
COCO 2017データセットの広範な実験は、標準の自己触媒モジュールと比較して、この方法が収束速度と検出精度の両方を改善することを示しています。
提案された方法は競争結果を達成し、ResNet-50バックボーンを使用して12エポックと24エポックで52.3%APと52.5 \%APで52.3%APに達し、さらにSWIN-Lバックボーンで58.0 \%APに改善します。
さらに、私たちの分析は興味深いパターンを明らかにしています。モデルは自然に初期デコーダー層のローカル空間関係に優先順位を付けることを学びながら、より深い層のより広いコンテキストに徐々に注意をシフトし、オブジェクト検出の将来の研究のための貴重な洞察を提供します。
要約(オリジナル)
This paper presents LP-DETR (Layer-wise Progressive DETR), a novel approach that enhances DETR-based object detection through multi-scale relation modeling. Our method introduces learnable spatial relationships between object queries through a relation-aware self-attention mechanism, which adaptively learns to balance different scales of relations (local, medium and global) across decoder layers. This progressive design enables the model to effectively capture evolving spatial dependencies throughout the detection pipeline. Extensive experiments on COCO 2017 dataset demonstrate that our method improves both convergence speed and detection accuracy compared to standard self-attention module. The proposed method achieves competitive results, reaching 52.3\% AP with 12 epochs and 52.5\% AP with 24 epochs using ResNet-50 backbone, and further improving to 58.0\% AP with Swin-L backbone. Furthermore, our analysis reveals an interesting pattern: the model naturally learns to prioritize local spatial relations in early decoder layers while gradually shifting attention to broader contexts in deeper layers, providing valuable insights for future research in object detection.
arxiv情報
著者 | Zhengjian Kang,Ye Zhang,Xiaoyu Deng,Xintao Li,Yongzhe Zhang |
発行日 | 2025-02-07 18:25:28+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google