PottsMGNet: A Mathematical Explanation of Encoder-Decoder Based Neural Networks

要約

画像処理や他の多くの分野の問題に対して、効果的なニューラル ネットワークの大規模なクラスには、エンコーダ/デコーダ ベースのアーキテクチャが採用されています。
これらのネットワークは目覚ましいパフォーマンスを発揮していますが、そのアーキテクチャの数学的説明はまだ未開発です。
この論文では、エンコーダ/デコーダベースのネットワーク アーキテクチャをアルゴリズムの観点から研究し、数学的説明を提供します。
説明の例として、画像セグメンテーションの 2 相ポッツ モデルを使用します。
セグメント化の問題を連続設定における制御の問題と関連付けます。
次に、マルチグリッド法と演算子分割スキームである PottsMGNet を使用して、連続制御モデルを離散化します。
結果として得られる離散 PottsMGNet がエンコーダ-デコーダベースのネットワークと同等であることを示します。
わずかな修正を加えれば、多くの一般的なエンコーダ デコーダ ベースのニューラル ネットワークが、提案されている PottsMGNet の単なるインスタンスであることが示されています。
Soft-Threshold-Dynamics を正則化機能として PottsMGNet に組み込むことにより、PottsMGNet はネットワーク幅や深さなどのネットワーク パラメーターに対して堅牢であることが示され、非常に大きなノイズを持つデータセットで顕著なパフォーマンスを達成しました。
私たちのほぼすべての実験において、新しいネットワークは常に、画像セグメンテーションに関して既存のネットワークよりも精度とサイコロスコアの点で優れているか、同等のパフォーマンスを発揮します。

要約(オリジナル)

For problems in image processing and many other fields, a large class of effective neural networks has encoder-decoder-based architectures. Although these networks have made impressive performances, mathematical explanations of their architectures are still underdeveloped. In this paper, we study the encoder-decoder-based network architecture from the algorithmic perspective and provide a mathematical explanation. We use the two-phase Potts model for image segmentation as an example for our explanations. We associate the segmentation problem with a control problem in the continuous setting. Then, multigrid method and operator splitting scheme, the PottsMGNet, are used to discretize the continuous control model. We show that the resulting discrete PottsMGNet is equivalent to an encoder-decoder-based network. With minor modifications, it is shown that a number of the popular encoder-decoder-based neural networks are just instances of the proposed PottsMGNet. By incorporating the Soft-Threshold-Dynamics into the PottsMGNet as a regularizer, the PottsMGNet has shown to be robust with the network parameters such as network width and depth and achieved remarkable performance on datasets with very large noise. In nearly all our experiments, the new network always performs better or as good on accuracy and dice score than existing networks for image segmentation.

arxiv情報

著者 Xue-Cheng Tai,Hao Liu,Raymond Chan
発行日 2023-09-15 13:53:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 68U10, 94A08, cs.CV パーマリンク