Real-Time Image Segmentation via Hybrid Convolutional-Transformer Architecture Search

要約

画像のセグメンテーションは、コンピュータ ビジョンにおける最も基本的な問題の 1 つであり、画像理解や自動運転における広範な応用により多くの注目を集めています。
ただし、効果的かつ効率的なセグメンテーション ニューラル アーキテクチャの設計は労働集約的なプロセスであり、人間の専門家による多くの試行が必要となる場合があります。
この論文では、アーキテクチャ検索を活用して、マルチヘッドセルフアテンションを高解像度表現 CNN に効率的に統合するという課題に取り組みます。
畳み込み層をマルチヘッド セルフ アテンションに手動で置き換えるのは、高解像度を維持するためにメモリにコストがかかるため、簡単ではありません。
対照的に、我々は、高解像度機能の利点を最大限に活用するだけでなく、マルチヘッドセルフアテンションモジュールを配置するための適切な位置を見つける、マルチターゲットマルチブランチスーパーネット手法を開発します。
当社の検索アルゴリズムは、複数の目的 (レイテンシや mIoU など) に合わせて最適化されており、1 回の検索で任意の数のブランチを持つパレート フロンティア上のアーキテクチャを見つけることができます。
さらに、異なる解像度からのブランチ間の軽量畳み込み層とメモリ効率の高いセルフアテンション層の最適なハイブリッドの組み合わせを検索し、高解像度に融合するハイブリッド畳み込みトランスアーキテクチャ検索 (HyCTAS) メソッドによる一連のモデルを提示します。
効率性と有効性の両方。
広範な実験により、HyCTAS がセマンティック セグメンテーション タスクにおいて以前の方法よりも優れたパフォーマンスを発揮することが実証されました。
コードとモデルは \url{https://github.com/MarvinYu1995/HyCTAS} で入手できます。

要約(オリジナル)

Image segmentation is one of the most fundamental problems in computer vision and has drawn a lot of attentions due to its vast applications in image understanding and autonomous driving. However, designing effective and efficient segmentation neural architectures is a labor-intensive process that may require lots of trials by human experts. In this paper, we address the challenge of integrating multi-head self-attention into high resolution representation CNNs efficiently, by leveraging architecture search. Manually replacing convolution layers with multi-head self-attention is non-trivial due to the costly overhead in memory to maintain high resolution. By contrast, we develop a multi-target multi-branch supernet method, which not only fully utilizes the advantages of high-resolution features, but also finds the proper location for placing multi-head self-attention module. Our search algorithm is optimized towards multiple objective s (e.g., latency and mIoU) and capable of finding architectures on Pareto frontier with arbitrary number of branches in a single search. We further present a series of model via Hybrid Convolutional-Transformer Architecture Search (HyCTAS) method that searched for the best hybrid combination of light-weight convolution layers and memory-efficient self-attention layers between branches from different resolutions and fuse to high resolution for both efficiency and effectiveness. Extensive experiments demonstrate that HyCTAS outperforms previous methods on semantic segmentation task. Code and models are available at \url{https://github.com/MarvinYu1995/HyCTAS}.

arxiv情報

著者 Hongyuan Yu,Cheng Wan,Mengchen Liu,Dongdong Chen,Bin Xiao,Xiyang Dai
発行日 2024-03-15 15:47:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク