A Unified Framework for U-Net Design and Analysis

要約

U-Net は、画像や偏微分方程式 (PDE) などの正方形上の連続信号に対する多数のタスクにわたる頼りになる最先端のニューラル アーキテクチャですが、その設計とアーキテクチャは十分に研究されていません。
このペーパーでは、一般的な U-Net アーキテクチャを設計および分析するためのフレームワークを提供します。
我々は、U-Net におけるエンコーダーとデコーダーの役割、それらの高解像度スケーリング限界、およびプリコンディショニングを介した ResNet との共役性を特徴付ける理論的結果を提示します。
私たちは、学習可能なパラメーターを持たない、簡素化されたウェーブレットベースのエンコーダーを備えた Multi-ResNets、U-Nets を提案します。
さらに、関数の制約、自然な基底、またはデータの幾何学構造をエンコードする新しい U-N​​et アーキテクチャを設計する方法を示します。
拡散モデルでは、私たちのフレームワークにより、高周波情報がノイズによって支配されていることが指数関数的に速く特定され、平均プーリングを備えた U-Net がこれをどのように利用するかを示すことができます。
私たちの実験では、画像セグメンテーション、PDE サロゲート モデリング、拡散モデルを使用した生成モデリングにおいて、Multi-ResNet が従来の U-Net と比較して、競合する、多くの場合優れたパフォーマンスをどのように達成するかを実証します。
私たちの U-Net フレームワークは、U-Net の理論的特性を研究し、四角形を超えた多数の問題に対して自然でスケーラブルなニューラル アーキテクチャを設計する道を開きます。

要約(オリジナル)

U-Nets are a go-to, state-of-the-art neural architecture across numerous tasks for continuous signals on a square such as images and Partial Differential Equations (PDE), however their design and architecture is understudied. In this paper, we provide a framework for designing and analysing general U-Net architectures. We present theoretical results which characterise the role of the encoder and decoder in a U-Net, their high-resolution scaling limits and their conjugacy to ResNets via preconditioning. We propose Multi-ResNets, U-Nets with a simplified, wavelet-based encoder without learnable parameters. Further, we show how to design novel U-Net architectures which encode function constraints, natural bases, or the geometry of the data. In diffusion models, our framework enables us to identify that high-frequency information is dominated by noise exponentially faster, and show how U-Nets with average pooling exploit this. In our experiments, we demonstrate how Multi-ResNets achieve competitive and often superior performance compared to classical U-Nets in image segmentation, PDE surrogate modelling, and generative modelling with diffusion models. Our U-Net framework paves the way to study the theoretical properties of U-Nets and design natural, scalable neural architectures for a multitude of problems beyond the square.

arxiv情報

著者 Christopher Williams,Fabian Falck,George Deligiannidis,Chris Holmes,Arnaud Doucet,Saifuddin Syed
発行日 2024-01-10 14:55:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, eess.IV, stat.ML パーマリンク