GiraffeDet: A Heavy-Neck Paradigm for Object Detection

要約

従来の物体検出フレームワークでは、画像認識モデルから継承されたバックボーンボディが深い潜在的特徴を抽出し、ネックモジュールがこれらの潜在的特徴を融合してさまざまなスケールで情報をキャプチャします。
物体検出の解像度は画像認識の解像度よりもはるかに大きいため、バックボーンの計算コストが推論コスト全体を支配することがよくあります。
この重いバックボーン設計パラダイムは、オブジェクト検出のためのエンドツーエンドの最適化された設計ではなく、画像認識モデルをオブジェクト検出に転送する際の歴史的な遺産に主に起因しています。
この作業では、そのようなパラダイムが実際に最適ではないオブジェクト検出モデルにつながることを示します。
この目的のために、我々は、効率的な物体検出のためのキリンのようなネットワークである、新しいヘビーネックパラダイムであるGiraffeDetを提案します。
GiraffeDetは、非常に軽量なバックボーンと非常に深くて大きなネックモジュールを使用して、さまざまな空間スケール間での高密度の情報交換と、さまざまなレベルの潜在的セマンティクスを同時に促進します。
この設計パラダイムにより、検出器はネットワークの初期段階でも同じ優先度で高レベルの意味情報と低レベルの空間情報を処理できるため、検出タスクでより効果的になります。
複数の一般的なオブジェクト検出ベンチマークの数値評価は、GiraffeDetが幅広いリソース制約にわたって以前のSOTAモデルを一貫して上回っていることを示しています。
ソースコードはhttps://github.com/jyqi/GiraffeDetで入手できます。

要約(オリジナル)

In conventional object detection frameworks, a backbone body inherited from image recognition models extracts deep latent features and then a neck module fuses these latent features to capture information at different scales. As the resolution in object detection is much larger than in image recognition, the computational cost of the backbone often dominates the total inference cost. This heavy-backbone design paradigm is mostly due to the historical legacy when transferring image recognition models to object detection rather than an end-to-end optimized design for object detection. In this work, we show that such paradigm indeed leads to sub-optimal object detection models. To this end, we propose a novel heavy-neck paradigm, GiraffeDet, a giraffe-like network for efficient object detection. The GiraffeDet uses an extremely lightweight backbone and a very deep and large neck module which encourages dense information exchange among different spatial scales as well as different levels of latent semantics simultaneously. This design paradigm allows detectors to process the high-level semantic information and low-level spatial information at the same priority even in the early stage of the network, making it more effective in detection tasks. Numerical evaluations on multiple popular object detection benchmarks show that GiraffeDet consistently outperforms previous SOTA models across a wide spectrum of resource constraints. The source code is available at https://github.com/jyqi/GiraffeDet.

arxiv情報

著者 Yiqi Jiang,Zhiyu Tan,Junyan Wang,Xiuyu Sun,Ming Lin,Hao Li
発行日 2022-06-22 09:28:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク