PIDNet: A Real-time Semantic Segmentation Network Inspired from PID Controller

要約

2分岐ネットワークアーキテクチャは、リアルタイムのセマンティックセグメンテーションタスクに対してその効率と有効性を示しています。
ただし、低レベルの詳細と高レベルのセマンティクスを直接融合すると、詳細な機能が周囲のコンテキスト情報に簡単に圧倒されるという現象が発生します。つまり、このペーパーではオーバーシュートが発生し、既存の2分岐モデルの精度の向上が制限されます。

この論文では、畳み込みニューラルネットワーク(CNN)と比例積分微分(PID)コントローラー間の接続を橋渡しし、2分岐ネットワークが比例積分(PI)コントローラーに他ならないことを明らかにします。
同様のオーバーシュートの問題。
この問題を軽減するために、新しい3ブランチネットワークアーキテクチャを提案します。PIDNetは、詳細情報、コンテキスト情報、および境界情報(セマンティクスの派生物)をそれぞれ解析する3つのブランチを持ち、境界注意を使用して詳細情報とコンテキストの融合をガイドします。
最終段階で分岐します。
PIDNetのファミリーは、推論速度と精度の間で最良のトレードオフを達成し、それらのテスト精度は、Cityscapes、CamVid、およびCOCO-Stuffデータセットで同様の推論速度を持つ既存のすべてのモデルを上回ります。
特に、PIDNet-Sは、Cityscapesテストセットで93.2 FPSの推論速度で78.6%mIOUを達成し、CamVidテストセットで153.7 FPSの速度で81.6%mIOUを達成します。

要約(オリジナル)

Two-branch network architecture has shown its efficiency and effectiveness for real-time semantic segmentation tasks. However, direct fusion of low-level details and high-level semantics will lead to a phenomenon that the detailed features are easily overwhelmed by surrounding contextual information, namely overshoot in this paper, which limits the improvement of the accuracy of existed two-branch models. In this paper, we bridge a connection between Convolutional Neural Network (CNN) and Proportional-Integral-Derivative (PID) controller and reveal that the two-branch network is nothing but a Proportional-Integral (PI) controller, which inherently suffers from the similar overshoot issue. To alleviate this issue, we propose a novel three-branch network architecture: PIDNet, which possesses three branches to parse the detailed, context and boundary information (derivative of semantics), respectively, and employs boundary attention to guide the fusion of detailed and context branches in final stage. The family of PIDNets achieve the best trade-off between inference speed and accuracy and their test accuracy surpasses all the existed models with similar inference speed on Cityscapes, CamVid and COCO-Stuff datasets. Especially, PIDNet-S achieves 78.6% mIOU with inference speed of 93.2 FPS on Cityscapes test set and 81.6% mIOU with speed of 153.7 FPS on CamVid test set.

arxiv情報

著者 Jiacong Xu,Zixiang Xiong,Shankar P. Bhattacharyya
発行日 2022-06-04 23:16:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク