要約
セマンティックセグメンテーションは、自動運転車やロボットナビゲーションから拡張現実や電話会議に至るまで、多くのビジョンシステムのバックボーンとして発生します。
限られたリソースエンベロープ内で厳しいレイテンシの制約の下で頻繁に動作するため、効率的な実行のために最適化することが重要になります。
同時に、ターゲットプラットフォームの異種機能とさまざまなアプリケーションの多様な制約により、複数のターゲット固有のセグメンテーションモデルの設計とトレーニングが必要になり、過剰なメンテナンスコストが発生します。
この目的のために、最先端のセグメンテーションCNNをMulti-Exit Semantic Segmentation(MESS)ネットワークに変換するためのフレームワークを提案します。
より簡単なサンプルとii)トレーニング後のカスタマイズ可能な速度と精度のトレードオフを提供することにより、トレーニングとメンテナンスのコストを節約します。
このようなネットワークを素朴に設計およびトレーニングすると、パフォーマンスが低下する可能性があります。
したがって、我々は、複数出口ネットワークのための新しい2段階のトレーニングスキームを提案します。
さらに、MESSのパラメーター化により、1GPUh未満での徹底的な検索による展開時に、接続されたセグメンテーションヘッドの数、配置、およびアーキテクチャを出口ポリシーとともに最適化することができます。
これにより、MESSは、各ターゲットユースケースのデバイス機能とアプリケーション要件に迅速に適応し、train-once-deploy-everywhereソリューションを提供できます。
MESSバリアントは、元のバックボーンネットワークと比較して、同じ精度で最大2.83倍、または同じ計算バジェットで5.33pp高い精度の遅延ゲインを実現します。
最後に、MESSは、最先端の技術と比較して、アーキテクチャの選択を桁違いに高速化します。
要約(オリジナル)
Semantic segmentation arises as the backbone of many vision systems, spanning from self-driving cars and robot navigation to augmented reality and teleconferencing. Frequently operating under stringent latency constraints within a limited resource envelope, optimising for efficient execution becomes important. At the same time, the heterogeneous capabilities of the target platforms and diverse constraints of different applications require the design and training of multiple target-specific segmentation models, leading to excessive maintenance costs. To this end, we propose a framework for converting state-of-the-art segmentation CNNs to Multi-Exit Semantic Segmentation (MESS) networks: specially trained models that employ parametrised early exits along their depth to i) dynamically save computation during inference on easier samples and ii) save training and maintenance cost by offering a post-training customisable speed-accuracy trade-off. Designing and training such networks naively can hurt performance. Thus, we propose novel two-staged training scheme for multi-exit networks. Furthermore, the parametrisation of MESS enables co-optimising the number, placement and architecture of the attached segmentation heads along with the exit policy, upon deployment via exhaustive search in <1GPUh. This allows MESS to rapidly adapt to the device capabilities and application requirements for each target use-case, offering a train-once-deploy-everywhere solution. MESS variants achieve latency gains of up to 2.83x with the same accuracy, or 5.33 pp higher accuracy for the same computational budget, compared to the original backbone network. Lastly, MESS delivers orders of magnitude faster architecture selection, compared to state-of-the-art techniques.
arxiv情報
著者 | Alexandros Kouris,Stylianos I. Venieris,Stefanos Laskaridis,Nicholas D. Lane |
発行日 | 2022-06-24 15:36:39+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google