Locally Regularized Neural Differential Equations: Some Black Boxes Were Meant to Remain Closed!

要約

ニューラル微分方程式のような暗黙層の深層学習技術は、新しい問題に自動的に適応できることから、重要なモデリングフレームワークとなっている。ニューラル微分方程式の学習は、事実上、もっともらしい力学系の空間に対する探索です。しかし、これらのモデルの計算コストを制御することは、適応型ソルバーが取るステップ数に依存するため困難である。ほとんどの先行研究は、学習時間を大幅に増加させる一方で、予測時間を短縮するために高次の方法を使用したり、特定の学習アルゴリズムに依存して学習と予測の両方の時間を短縮したりしているが、自動微分に対する厳しい要件のため、ドロップイン代替品として使用することは困難である。この原稿では、確率的な時点における適応的微分方程式ソルバーの内部コストヒューリスティックを用いて、より統合しやすい力学系の学習へと訓練を誘導する。また、微分方程式の解の勾配を計算するためのあらゆるアドジョイントテクニックと本手法の使用を許可し、「ブラックボックスを閉じる」。本手法とグローバル正則化を比較する実験的研究を行い、常微分方程式(ODE)および確率微分方程式(SDE)に対する実装の柔軟性を損なうことなく、同様の性能数値を達成することを示す。また、性能と学習時間のトレードオフを実現するために、2つのサンプリング戦略を開発した。我々の方法は、関数評価数を0.556-0.733倍に減らし、予測を1.3-2倍に加速させる。

要約(オリジナル)

Implicit layer deep learning techniques, like Neural Differential Equations, have become an important modeling framework due to their ability to adapt to new problems automatically. Training a neural differential equation is effectively a search over a space of plausible dynamical systems. However, controlling the computational cost for these models is difficult since it relies on the number of steps the adaptive solver takes. Most prior works have used higher-order methods to reduce prediction timings while greatly increasing training time or reducing both training and prediction timings by relying on specific training algorithms, which are harder to use as a drop-in replacement due to strict requirements on automatic differentiation. In this manuscript, we use internal cost heuristics of adaptive differential equation solvers at stochastic time points to guide the training toward learning a dynamical system that is easier to integrate. We ‘close the black-box’ and allow the use of our method with any adjoint technique for gradient calculations of the differential equation solution. We perform experimental studies to compare our method to global regularization to show that we attain similar performance numbers without compromising the flexibility of implementation on ordinary differential equations (ODEs) and stochastic differential equations (SDEs). We develop two sampling strategies to trade off between performance and training time. Our method reduces the number of function evaluations to 0.556-0.733x and accelerates predictions by 1.3-2x.

arxiv情報

著者 Avik Pal,Alan Edelman,Chris Rackauckas
発行日 2023-06-02 14:52:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.LG, cs.NA, math.NA パーマリンク