Deep Equilibrium Object Detection

要約

クエリベースのオブジェクト検出器は、一連の学習可能なクエリを使用して、画像の特徴をオブジェクト インスタンスに直接デコードします。
これらのクエリ ベクトルは、一連のデコーダ層を通じて安定した意味のある表現に徐々に洗練され、その後、単純な FFN ヘッドでオブジェクトの位置とカテゴリを直接予測するために使用されます。
この論文では、深層平衡デコーダを設計することによる新しいクエリベースのオブジェクト検出器 (DEQDet) を紹介します。
私たちの DEQ デコーダは、{implicit} 層の固定小数点解決としてクエリ ベクトルの改良をモデル化し、{infinite} ステップの改良を適用することと同等です。
オブジェクトのデコードをより具体的にするために、2 段階の展開された平衡方程式を使用して、クエリ ベクトルの改良を明示的に取得します。
したがって、不正確勾配逆伝播 (RAG) を使用した DEQ トレーニングにリファインメントの認識を組み込むことができます。
さらに、DEQDet のトレーニングを安定させ、汎化能力を向上させるために、洗練を意識した摂動 (RAP) を使用した DEQ の最適化パスに関する深い監視スキームを考案しました。
私たちの実験では、DEQDet がベースラインの対応物 (AdaMixer) よりも高速に収束し、メモリ消費量が少なく、より良い結果が得られることが実証されています。
特に、ResNet50 バックボーンと 300 クエリを備えた DEQDet は、$2\times$ トレーニング スキーム (24 エポック) の下で、MS COCO ベンチマークで $49.5$ mAP と $33.0$ AP$_s$ を達成しました。

要約(オリジナル)

Query-based object detectors directly decode image features into object instances with a set of learnable queries. These query vectors are progressively refined to stable meaningful representations through a sequence of decoder layers, and then used to directly predict object locations and categories with simple FFN heads. In this paper, we present a new query-based object detector (DEQDet) by designing a deep equilibrium decoder. Our DEQ decoder models the query vector refinement as the fixed point solving of an {implicit} layer and is equivalent to applying {infinite} steps of refinement. To be more specific to object decoding, we use a two-step unrolled equilibrium equation to explicitly capture the query vector refinement. Accordingly, we are able to incorporate refinement awareness into the DEQ training with the inexact gradient back-propagation (RAG). In addition, to stabilize the training of our DEQDet and improve its generalization ability, we devise the deep supervision scheme on the optimization path of DEQ with refinement-aware perturbation~(RAP). Our experiments demonstrate DEQDet converges faster, consumes less memory, and achieves better results than the baseline counterpart (AdaMixer). In particular, our DEQDet with ResNet50 backbone and 300 queries achieves the $49.5$ mAP and $33.0$ AP$_s$ on the MS COCO benchmark under $2\times$ training scheme (24 epochs).

arxiv情報

著者 Shuai Wang,Yao Teng,Limin Wang
発行日 2023-08-18 13:56:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク