PIDNet: A Real-time Semantic Segmentation Network Inspired by PID Controllers

要約

タイトル:PIDNet:PIDコントローラーに着想を得たリアルタイムセマンティックセグメンテーションネットワーク

要約:
– 2枝のネットワークアーキテクチャは、リアルタイムのセマンティックセグメンテーションタスクにおいて効率的で効果的であることが示されている。
– 高解像度の詳細情報と低周波数のコンテキスト情報を直接結合することには、詳細な特徴が周囲のコンテキスト情報によって簡単に圧倒されるという欠点がある。このオーバーシュート現象によって、既存の2枝モデルのセグメンテーション精度の改善が限られている。
– この論文では、畳み込みニューラルネットワーク(CNN)と比例積分微分(PID)コントローラーの関係を明らかにし、2枝ネットワークが固有のオーバーシュート問題を抱える比例積分(PI)コントローラーに相当することを示す。
– この問題の緩和のために、本論文では、PIDNetという新しい3枝ネットワークアーキテクチャを提案している。PIDNetは、詳細、コンテキスト、および境界情報をそれぞれ解析するための3本の枝を含み、境界アテンションを使用して詳細枝とコンテキスト枝の統合を誘導する。
– 私たちのPIDNetファミリーは、推論速度と精度の最適なトレードオフを達成し、CityscapesおよびCamVidデータセットで同様の推論速度を持つすべての既存モデルを上回る精度を達成している。
– 具体的には、PIDNet-Sは、Cityscapesで93.2FPSの推論速度で78.6%mIOUを達成し、CamVidで153.7FPSの速度で80.1%mIOUを達成している。

要約(オリジナル)

Two-branch network architecture has shown its efficiency and effectiveness in real-time semantic segmentation tasks. However, direct fusion of high-resolution details and low-frequency context has the drawback of detailed features being easily overwhelmed by surrounding contextual information. This overshoot phenomenon limits the improvement of the segmentation accuracy of existing two-branch models. In this paper, we make a connection between Convolutional Neural Networks (CNN) and Proportional-Integral-Derivative (PID) controllers and reveal that a two-branch network is equivalent to a Proportional-Integral (PI) controller, which inherently suffers from similar overshoot issues. To alleviate this problem, we propose a novel three-branch network architecture: PIDNet, which contains three branches to parse detailed, context and boundary information, respectively, and employs boundary attention to guide the fusion of detailed and context branches. Our family of PIDNets achieve the best trade-off between inference speed and accuracy and their accuracy surpasses all the existing models with similar inference speed on the Cityscapes and CamVid datasets. Specifically, PIDNet-S achieves 78.6% mIOU with inference speed of 93.2 FPS on Cityscapes and 80.1% mIOU with speed of 153.7 FPS on CamVid.

arxiv情報

著者 Jiacong Xu,Zixiang Xiong,Shankar P. Bhattacharyya
発行日 2023-04-07 01:10:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.AI, cs.CV パーマリンク