Model-based inexact graph matching on top of CNNs for semantic scene understanding

要約

セマンティック セグメンテーション用のディープ ラーニング ベースのパイプラインでは、トレーニングに使用される注釈付き画像で利用可能な構造情報が無視されることがよくあります。
深層学習によって提供されるセグメンテーション結果を改善するために、関心のあるオブジェクトに関する構造的知識を強化する新しい後処理モジュールを提案します。
このモジュールは、「多対一か無か」の不正確なグラフ マッチング アプローチに対応し、2 次代入問題として定式化されます。
私たちのアプローチは、2D RGB 画像からの顔のセグメンテーション (FASSEG) と 3D MRI からの脳のセグメンテーション (IBSR) の 2 つのパブリック データセットに対する CNN ベースのセグメンテーション (さまざまな CNN バックボーン用) と比較されます。
評価は、2 種類の構造情報 (距離と方向関係、この選択は、一般的なフレームワークのハイパーパラメーターです) を使用して実行されます。
FASSEG データでは、結果は、モジュールが CNN の精度を約 6.3% 向上させることを示しています (ハウスドルフ距離は 22.11 から 20.71 に減少します)。
IBSR データでは、改善は 51% です (ハウスドルフ距離は 11.01 から 5.4 に減少します)。
さらに、私たちのアプローチは、ディープ ラーニング手法のパフォーマンスを制限することが多い小さなトレーニング データセットに対して回復力があることが示されています。トレーニング データセットのサイズが小さくなるほど、改善が大きくなります。

要約(オリジナル)

Deep learning based pipelines for semantic segmentation often ignore structural information available on annotated images used for training. We propose a novel post-processing module enforcing structural knowledge about the objects of interest to improve segmentation results provided by deep learning. This module corresponds to a ‘many-to-one-or-none’ inexact graph matching approach, and is formulated as a quadratic assignment problem. Our approach is compared to a CNN-based segmentation (for various CNN backbones) on two public datasets, one for face segmentation from 2D RGB images (FASSEG), and the other for brain segmentation from 3D MRIs (IBSR). Evaluations are performed using two types of structural information (distances and directional relations, , this choice being a hyper-parameter of our generic framework). On FASSEG data, results show that our module improves accuracy of the CNN by about 6.3% (the Hausdorff distance decreases from 22.11 to 20.71). On IBSR data, the improvement is of 51% (the Hausdorff distance decreases from 11.01 to 5.4). In addition, our approach is shown to be resilient to small training datasets that often limit the performance of deep learning methods: the improvement increases as the size of the training dataset decreases.

arxiv情報

著者 Jérémy Chopin,Jean-Baptiste Fasquel,Harold Mouchère,Rozenn Dahyot,Isabelle Bloch
発行日 2023-01-18 12:23:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, I.4.5 パーマリンク