要約
タイトル:モバイルデバイスで高速かつ正確な意味論的セグメンテーションモデルの探索:PP-MobileSeg
要約:
– transformersの成功は、いくつかのモバイルデバイス向けに適合させる試みを生み出しましたが、その性能は現実のアプリケーションにおいて不十分です。
– この問題に対処するために、PP-MobileSegという意味論的セグメンテーションモデルを提案しています。PP-MobileSegは、モバイルデバイス上で最新の性能を発揮します。
– PP-MobileSegは、StrideFormerバックボーン、集約されたアテンションモジュール(AAM)、および有効な補間モジュール(VIM)の3つの新しい部分から構成されています。
– 四段階のStrideFormerバックボーンは、MV3ブロックとストライドSEAアテンションで構築されており、最小のパラメータオーバーヘッドで豊富な意味的詳細な特徴を抽出することができます。
– AAMは、まず、セマンティック特徴のアンサンブル投票を通じて詳細な特徴をフィルタリングし、それからセマンティック特徴と組み合わせて意味情報を強化します。
– さらに、私たちはVIMを提案して、ダウンサンプルされた特徴を入力画像の解像度にアップサンプリングします。最終予測に存在するクラスのみを補間することにより、モデルのレイテンシを大幅に減少させます。
– 幅広い実験結果から、PP-MobileSegは、他の方法と比較して、精度、モデルサイズ、およびレイテンシの間の優れたトレードオフを実現します。
– ADE20Kデータセットにおいて、PP-MobileSegはSeaFormer-BaseよりmIoUで1.57%高い精度を実現し、32.9%のパラメータ数と42.3%の高速化を実現しています。ソースコードはhttps://github.com/PaddlePaddle/PaddleSeg/tree/release/2.8で利用可能です。
要約(オリジナル)
The success of transformers in computer vision has led to several attempts to adapt them for mobile devices, but their performance remains unsatisfactory in some real-world applications. To address this issue, we propose PP-MobileSeg, a semantic segmentation model that achieves state-of-the-art performance on mobile devices. PP-MobileSeg comprises three novel parts: the StrideFormer backbone, the Aggregated Attention Module (AAM), and the Valid Interpolate Module (VIM). The four-stage StrideFormer backbone is built with MV3 blocks and strided SEA attention, and it is able to extract rich semantic and detailed features with minimal parameter overhead. The AAM first filters the detailed features through semantic feature ensemble voting and then combines them with semantic features to enhance the semantic information. Furthermore, we proposed VIM to upsample the downsampled feature to the resolution of the input image. It significantly reduces model latency by only interpolating classes present in the final prediction, which is the most significant contributor to overall model latency. Extensive experiments show that PP-MobileSeg achieves a superior tradeoff between accuracy, model size, and latency compared to other methods. On the ADE20K dataset, PP-MobileSeg achieves 1.57% higher accuracy in mIoU than SeaFormer-Base with 32.9% fewer parameters and 42.3% faster acceleration on Qualcomm Snapdragon 855. Source codes are available at https://github.com/PaddlePaddle/PaddleSeg/tree/release/2.8.
arxiv情報
著者 | Shiyu Tang,Ting Sun,Juncai Peng,Guowei Chen,Yuying Hao,Manhui Lin,Zhihong Xiao,Jiangbin You,Yi Liu |
発行日 | 2023-04-11 11:43:10+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, OpenAI