要約
最先端のセマンティック セグメンテーション モデルは通常、データ駆動型の方法で最適化され、トレーニング データのピクセルごとの分類目標のみを最小限に抑えます。
この純粋にデータ駆動型のパラダイムは、特に入力画像のドメインがトレーニング中に発生したものからシフトされている場合に、不合理なセグメンテーションを引き起こすことがよくあります。
たとえば、最先端のモデルは、それぞれ「空」とラベル付けされているセグメントの上にあるセグメントに「道路」というラベルを割り当てる可能性がありますが、物理世界に関する私たちの知識ではそのようなことが決定されています。
この構成は、前向きの正立カメラで撮影された画像には適用できません。
私たちの手法である物理的に実現可能なセマンティック セグメンテーション (PhyFea) は、セマンティック セグメンテーション データセットのトレーニング セットから空間クラス関係を制御する明示的な物理的制約を抽出し、予測の実現可能性を高めるためにこれらの制約の違反にペナルティを与える微分可能な損失関数を強制します。
PhyFea は、ADE20K、Cityscapes、ACDC 全体でベースラインとして使用している各最先端のネットワーク上で、mIoU 単位で大幅なパフォーマンスの向上をもたらします。特に、ADE20K では $1.5\%$ の向上、ACDC では $2.1\%$ の向上が見られます。
要約(オリジナル)
State-of-the-art semantic segmentation models are typically optimized in a data-driven fashion, minimizing solely per-pixel classification objectives on their training data. This purely data-driven paradigm often leads to absurd segmentations, especially when the domain of input images is shifted from the one encountered during training. For instance, state-of-the-art models may assign the label “road” to a segment which is located above a segment that is respectively labeled as “sky”, although our knowledge of the physical world dictates that such a configuration is not feasible for images captured by forward-facing upright cameras. Our method, Physically Feasible Semantic Segmentation (PhyFea), extracts explicit physical constraints that govern spatial class relations from the training sets of semantic segmentation datasets and enforces a differentiable loss function that penalizes violations of these constraints to promote prediction feasibility. PhyFea yields significant performance improvements in mIoU over each state-of-the-art network we use as baseline across ADE20K, Cityscapes and ACDC, notably a $1.5\%$ improvement on ADE20K and a $2.1\%$ improvement on ACDC.
arxiv情報
著者 | Shamik Basu,Luc Van Gool,Christos Sakaridis |
発行日 | 2024-09-11 17:26:06+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google