要約
トレーニング軌跡を時間の経過とともに展開すると、ニューラル ネットワークで拡張された物理シミュレーターの推論精度に大きな影響を与えます。
私たちはこれをニューラル タイムステッパーのトレーニングの 3 つのバリエーションで分析します。
ワンステップのセットアップと完全に微分可能なアンローリングに加えて、あまり広くは使用されていない 3 番目のバリアントである時間勾配を使用しないアンローリングが含まれています。
これら 3 つのモダリティでトレーニングされたネットワークを比較すると、アンローリング、トレーニング分布シフト、長期勾配の 2 つの主要な効果が解きほぐされます。
物理システム、ネットワークのサイズとアーキテクチャ、トレーニングのセットアップ、テスト シナリオにわたる詳細な調査を示します。
また、2 つのシミュレーション モードも含まれています。 予測セットアップでは、ニューラル ネットワークのみに依存して軌道を計算します。
対照的に、補正セットアップには、ニューラル ネットワークによってサポートされる数値ソルバーが含まれています。
これらの変動にまたがる私たちの研究は、主な発見の経験的根拠を提供します。補正セットアップで数値ソルバーを使用した非微分可能だがアンロールされたトレーニングは、このソルバーを使用しない完全微分可能な予測セットアップと比べて大幅な改善をもたらす可能性があります。
完全微分可能な設定でトレーニングされたモデルの精度は、微分不可能な設定に比べて異なります。
微分可能なものは、補正ネットワーク間および予測セットアップ間での比較において最高のパフォーマンスを発揮します。
どちらの場合も、非微分可能アンローリングの精度はほぼ同じです。
さらに、これらの動作は物理システム、ネットワークのアーキテクチャとサイズ、数値スキームに対して不変であることを示します。
これらの結果は、完全な微分可能性が利用できない場合でも、非微分可能数値シミュレーターをトレーニング設定に統合する動機付けになります。
一般的なアーキテクチャの収束率は数値アルゴリズムと比較して低いことを示します。
これにより、神経部分と数値部分を組み合わせて、両方の利点を活用した補正セットアップが促進されます。
要約(オリジナル)
Unrolling training trajectories over time strongly influences the inference accuracy of neural network-augmented physics simulators. We analyze this in three variants of training neural time-steppers. In addition to one-step setups and fully differentiable unrolling, we include a third, less widely used variant: unrolling without temporal gradients. Comparing networks trained with these three modalities disentangles the two dominant effects of unrolling, training distribution shift and long-term gradients. We present detailed study across physical systems, network sizes and architectures, training setups, and test scenarios. It also encompasses two simulation modes: In prediction setups, we rely solely on neural networks to compute a trajectory. In contrast, correction setups include a numerical solver that is supported by a neural network. Spanning these variations, our study provides the empirical basis for our main findings: Non-differentiable but unrolled training with a numerical solver in a correction setup can yield substantial improvements over a fully differentiable prediction setup not utilizing this solver. The accuracy of models trained in a fully differentiable setup differs compared to their non-differentiable counterparts. Differentiable ones perform best in a comparison among correction networks as well as among prediction setups. For both, the accuracy of non-differentiable unrolling comes close. Furthermore, we show that these behaviors are invariant to the physical system, the network architecture and size, and the numerical scheme. These results motivate integrating non-differentiable numerical simulators into training setups even if full differentiability is unavailable. We show the convergence rate of common architectures to be low compared to numerical algorithms. This motivates correction setups combining neural and numerical parts which utilize benefits of both.
arxiv情報
著者 | Bjoern List,Li-Wei Chen,Kartik Bali,Nils Thuerey |
発行日 | 2024-10-10 16:27:52+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google