Salient Object Detection via Dynamic Scale Routing

要約

顕著な物体検出 (SOD) における最近の研究の進歩は、ディープ ラーニング テクノロジによって強化された、かつてないほど強力なマルチスケールの特徴表現に大きく起因する可能性があります。
既存の SOD ディープ モデルは、既製のエンコーダーを介してマルチスケールの特徴を抽出し、さまざまな精巧なデコーダーを介してそれらをスマートに結合します。
ただし、この一般的に使用されるスレッドのカーネル サイズは通常「固定」です。
私たちの新しい実験では、小さな顕著なオブジェクトを含むシナリオでは、小さなサイズのカーネルが望ましいことがわかりました。
対照的に、カーネル サイズが大きいと、大きな顕著なオブジェクトを含む画像のパフォーマンスが向上する可能性があります。
この観察に着想を得て、このホワイト ペーパーでは「動的な」スケール ルーティングを (まったく新しいアイデアとして) 提唱します。
これにより、既存の機能のバックボーンに直接適合する汎用プラグインが作成されます。
この論文の主な技術革新は 2 つあります。
まず、エンコーダの設計に固定カーネル サイズのバニラ畳み込みを使用する代わりに、最適なカーネル サイズを動的に選択する動的ピラミッド畳み込み (DPConv) を提案します。
指定された入力。
次に、DPConv ベースのエンコーダーに最適な自己適応型の双方向デコーダー設計を提供します。
最も重要なハイライトは、機能スケールとその動的コレクション間のルーティング機能であり、推論プロセスをスケール対応にします。
その結果、このホワイト ペーパーは、現在の SOTA パフォーマンスを強化し続けています。
コードとデータセットはどちらも https://github.com/wuzhenyubuaa/DPNet で公開されています。

要約(オリジナル)

Recent research advances in salient object detection (SOD) could largely be attributed to ever-stronger multi-scale feature representation empowered by the deep learning technologies. The existing SOD deep models extract multi-scale features via the off-the-shelf encoders and combine them smartly via various delicate decoders. However, the kernel sizes in this commonly-used thread are usually ‘fixed’. In our new experiments, we have observed that kernels of small size are preferable in scenarios containing tiny salient objects. In contrast, large kernel sizes could perform better for images with large salient objects. Inspired by this observation, we advocate the ‘dynamic’ scale routing (as a brand-new idea) in this paper. It will result in a generic plug-in that could directly fit the existing feature backbone. This paper’s key technical innovations are two-fold. First, instead of using the vanilla convolution with fixed kernel sizes for the encoder design, we propose the dynamic pyramid convolution (DPConv), which dynamically selects the best-suited kernel sizes w.r.t. the given input. Second, we provide a self-adaptive bidirectional decoder design to accommodate the DPConv-based encoder best. The most significant highlight is its capability of routing between feature scales and their dynamic collection, making the inference process scale-aware. As a result, this paper continues to enhance the current SOTA performance. Both the code and dataset are publicly available at https://github.com/wuzhenyubuaa/DPNet.

arxiv情報

著者 Zhenyu Wu,Shuai Li,Chenglizhao Chen,Hong Qin,Aimin Hao
発行日 2022-10-25 08:01:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク