The revenge of BiSeNet: Efficient Multi-Task Image Segmentation


画像セグメンテーションの最近の進歩は、リアルタイム アプリケーション、特にエッジ デバイスの要求を満たすためにモデルの効率を高めることに重点を置いています。
ただし、既存の研究は主に単一タスクの設定、特にセマンティック セグメンテーションに焦点を当てており、異なるタスクに対して冗長な作業や特殊なアーキテクチャが必要になります。
この制限に対処するために、効率や精度を犠牲にすることなくさまざまなセグメンテーション タスクを処理できる、効率的なマルチタスク画像セグメンテーションのための新しいアーキテクチャを提案します。
BiSeNetFormer を紹介します。これは 2 ストリーム セマンティック セグメンテーション アーキテクチャの効率を活用し、それをマスク分類フレームワークに拡張します。
私たちのアプローチは、バイナリ マスクとクラス確率を計算する効率的な変換ベースのセグメンテーション ヘッドを活用しながら、それぞれ詳細情報とセマンティック情報を取得するための効率的な空間パスとコンテキスト パスを維持します。
BiSeNetFormer は、セマンティック セグメンテーションとパノプティック セグメンテーションという複数のタスクをシームレスにサポートすることにより、マルチタスク セグメンテーションのための多用途のソリューションを提供します。
人気のあるデータセット、Cityscapes および ADE20K に対するアプローチを評価し、最先端のアーキテクチャと比較して優れた精度を維持しながら、驚異的な推論速度を実証しました。
私たちの結果は、BiSeNetFormer が高速で効率的なマルチタスク セグメンテーション ネットワークに向けて大幅に進歩し、モデルの効率とタスクの適応性の間のギャップを埋めることを示しています。


Recent advancements in image segmentation have focused on enhancing the efficiency of the models to meet the demands of real-time applications, especially on edge devices. However, existing research has primarily concentrated on single-task settings, especially on semantic segmentation, leading to redundant efforts and specialized architectures for different tasks. To address this limitation, we propose a novel architecture for efficient multi-task image segmentation, capable of handling various segmentation tasks without sacrificing efficiency or accuracy. We introduce BiSeNetFormer, that leverages the efficiency of two-stream semantic segmentation architectures and it extends them into a mask classification framework. Our approach maintains the efficient spatial and context paths to capture detailed and semantic information, respectively, while leveraging an efficient transformed-based segmentation head that computes the binary masks and class probabilities. By seamlessly supporting multiple tasks, namely semantic and panoptic segmentation, BiSeNetFormer offers a versatile solution for multi-task segmentation. We evaluate our approach on popular datasets, Cityscapes and ADE20K, demonstrating impressive inference speeds while maintaining competitive accuracy compared to state-of-the-art architectures. Our results indicate that BiSeNetFormer represents a significant advancement towards fast, efficient, and multi-task segmentation networks, bridging the gap between model efficiency and task adaptability.


著者 Gabriele Rosi,Claudia Cuttano,Niccolò Cavagnero,Giuseppe Averta,Fabio Cermelli
発行日 2024-04-15 08:32:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, Google

カテゴリー: cs.CV パーマリンク