要約
ニューラル微分方程式のような暗黙的なレイヤー ディープ ラーニング技術は、新しい問題に自動的に適応できるため、重要なモデリング フレームワークになっています。
ニューラル微分方程式のトレーニングは、事実上、もっともらしい動的システムの空間を探索することです。
ただし、これらのモデルの計算コストを制御することは、適応ソルバーが実行するステップ数に依存するため困難です。
これまでのほとんどの研究では、特定のトレーニング アルゴリズムに依存することで、トレーニング時間を大幅に増やしたり、トレーニングと予測の両方のタイミングを短縮したりしながら、高次の方法を使用して予測タイミングを短縮していました。
.
この原稿では、確率的時点での適応微分方程式ソルバーの内部コスト ヒューリスティックを使用して、統合しやすい動的システムの学習に向けてトレーニングを導きます。
「ブラック ボックスを閉じて」、微分方程式の解の勾配計算のための任意のアジョイント テクニックと共にこの方法を使用できるようにします。
常微分方程式 (ODE) と確率微分方程式 (SDE) の実装の柔軟性を損なうことなく、同様のパフォーマンス数値を達成することを示すために、私たちの方法をグローバル正則化と比較するための実験的研究を行います。
パフォーマンスとトレーニング時間をトレードオフするために、2 つのサンプリング戦略を開発します。
私たちの方法は、関数評価の数を 0.556-0.733x に減らし、予測を 1.3-2x 加速します。
要約(オリジナル)
Implicit layer deep learning techniques, like Neural Differential Equations, have become an important modeling framework due to their ability to adapt to new problems automatically. Training a neural differential equation is effectively a search over a space of plausible dynamical systems. However, controlling the computational cost for these models is difficult since it relies on the number of steps the adaptive solver takes. Most prior works have used higher-order methods to reduce prediction timings while greatly increasing training time or reducing both training and prediction timings by relying on specific training algorithms, which are harder to use as a drop-in replacement due to strict requirements on automatic differentiation. In this manuscript, we use internal cost heuristics of adaptive differential equation solvers at stochastic time points to guide the training toward learning a dynamical system that is easier to integrate. We ‘close the black-box’ and allow the use of our method with any adjoint technique for gradient calculations of the differential equation solution. We perform experimental studies to compare our method to global regularization to show that we attain similar performance numbers without compromising the flexibility of implementation on ordinary differential equations (ODEs) and stochastic differential equations (SDEs). We develop two sampling strategies to trade off between performance and training time. Our method reduces the number of function evaluations to 0.556-0.733x and accelerates predictions by 1.3-2x.
arxiv情報
著者 | Avik Pal,Alan Edelman,Chris Rackauckas |
発行日 | 2023-03-10 16:51:19+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google