要約
トランスとそのバリアントは、画像分類、オブジェクトの検出、セグメンテーションなど、近年、さまざまなビジョンタスクの大きな可能性を示しています。
一方、最近の研究では、適切なアーキテクチャ設計により、畳み込みネットワーク(コンボネット)もトランスで競争力のあるパフォーマンスを達成することが明らかになりました。
ただし、純粋な畳み込みを利用してトランススタイルのデコーダーモジュールを構築するための事前の方法はありません。これは、検出トランス(DETR)などのエンコーダデコーダーアーキテクチャに不可欠です。
この目的のために、この論文では、洗練されたトランスアーキテクチャの代わりに、Convnetsを使用してクエリベースの検出とセグメンテーションフレームワークを構築できるかどうかを調査します。
畳み込みレイヤーを介してオブジェクトクエリと画像機能間の相互作用を実行するために、InterCONVと呼ばれる新しいメカニズムを提案します。
提案されているInterCONVを装備し、バックボーンおよび畳み込みエンコーダーデコーダーアーキテクチャで構成される検出コンボネット(DECO)を構築します。
挑戦的なココベンチマークで、提案されたデコを以前の検出器と比較します。
そのシンプルさにもかかわらず、私たちのデコは、検出精度とランニング速度の点で競争力のあるパフォーマンスを達成します。
具体的には、ResNet-18およびResNet-50バックボーンを使用して、DECOはそれぞれ66ドルと$ 34 $ FPSで40.5ドル\%$と47.8 \%$ APを達成します。
提案された方法は、セグメントのあらゆるタスクでも評価され、同様のパフォーマンスとより高い効率を示します。
提案された方法が、ビジョンタスクのアーキテクチャを設計するための別の視点をもたらすことを願っています。
コードはhttps://github.com/xinghaochen/decoおよびhttps://github.com/mindspore-lab/models/tree/master/research/huawei-noah/decoで入手できます。
要約(オリジナル)
Transformer and its variants have shown great potential for various vision tasks in recent years, including image classification, object detection and segmentation. Meanwhile, recent studies also reveal that with proper architecture design, convolutional networks (ConvNets) also achieve competitive performance with transformers. However, no prior methods have explored to utilize pure convolution to build a Transformer-style Decoder module, which is essential for Encoder-Decoder architecture like Detection Transformer (DETR). To this end, in this paper we explore whether we could build query-based detection and segmentation framework with ConvNets instead of sophisticated transformer architecture. We propose a novel mechanism dubbed InterConv to perform interaction between object queries and image features via convolutional layers. Equipped with the proposed InterConv, we build Detection ConvNet (DECO), which is composed of a backbone and convolutional encoder-decoder architecture. We compare the proposed DECO against prior detectors on the challenging COCO benchmark. Despite its simplicity, our DECO achieves competitive performance in terms of detection accuracy and running speed. Specifically, with the ResNet-18 and ResNet-50 backbone, our DECO achieves $40.5\%$ and $47.8\%$ AP with $66$ and $34$ FPS, respectively. The proposed method is also evaluated on the segment anything task, demonstrating similar performance and higher efficiency. We hope the proposed method brings another perspective for designing architectures for vision tasks. Codes are available at https://github.com/xinghaochen/DECO and https://github.com/mindspore-lab/models/tree/master/research/huawei-noah/DECO.
arxiv情報
著者 | Xinghao Chen,Siwei Li,Yijing Yang,Yunhe Wang |
発行日 | 2025-02-27 14:58:37+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google