要約
勾配ベースの最適化と逆伝播でトレーニングされたディープ ニューラル ネットワーク (DNN) は、現在、現代の人工知能、機械学習、データ サイエンスの主要なツールです。
多くのアプリケーションでは、DNN は教師あり学習または強化学習を通じてオフラインでトレーニングされ、推論のためにオンラインで展開されます。
ただし、標準のバックプロパゲーションと勾配ベースの最適化を使用して DNN をトレーニングしても、制御などのアプリケーションに不可欠な DNN の本質的なパフォーマンス保証や制限はありません。
さらに、強化学習ポリシーの sim2real 転送など、オフライン トレーニングおよびオンライン推論の問題の多くは、トレーニング分布から現実世界の分布への領域の移行を経験します。
これらの安定性と転移学習の問題に対処するために、制御理論の手法を使用して DNN パラメーターをオンラインで更新することを提案します。
我々は、全結合フィードフォワード DNN を連続時間動的システムとして定式化し、DNN 入力ベクトルの時間導関数に関するさまざまな条件下で望ましい誤差収束を保証する新しい最終層更新則を提案します。
さらに、スペクトル正規化の下で DNN をトレーニングすると、オンライン DNN 予測の誤差軌跡の上限が制御されることを示します。これは、数値的に微分された量またはノイズの多い状態の測定値が DNN に入力される場合に望ましいことです。
提案されたオンライン DNN 適応則は、トレーニング データセットからの推論でパラメーターが変化する、ドメイン シフト下のファン デル ポール システムのダイナミクスを学習するためにシミュレーションで検証されます。
このシミュレーションは、DNN ベースの学習システムでパフォーマンスの向上と保証を引き出すために制御理論手法を使用することの有効性を示しています。
要約(オリジナル)
Deep neural networks (DNNs), trained with gradient-based optimization and backpropagation, are currently the primary tool in modern artificial intelligence, machine learning, and data science. In many applications, DNNs are trained offline, through supervised learning or reinforcement learning, and deployed online for inference. However, training DNNs with standard backpropagation and gradient-based optimization gives no intrinsic performance guarantees or bounds on the DNN, which is essential for applications such as controls. Additionally, many offline-training and online-inference problems, such as sim2real transfer of reinforcement learning policies, experience domain shift from the training distribution to the real-world distribution. To address these stability and transfer learning issues, we propose using techniques from control theory to update DNN parameters online. We formulate the fully-connected feedforward DNN as a continuous-time dynamical system, and we propose novel last-layer update laws that guarantee desirable error convergence under various conditions on the time derivative of the DNN input vector. We further show that training the DNN under spectral normalization controls the upper bound of the error trajectories of the online DNN predictions, which is desirable when numerically differentiated quantities or noisy state measurements are input to the DNN. The proposed online DNN adaptation laws are validated in simulation to learn the dynamics of the Van der Pol system under domain shift, where parameters are varied in inference from the training dataset. The simulations demonstrate the effectiveness of using control-theoretic techniques to derive performance improvements and guarantees in DNN-based learning systems.
arxiv情報
| 著者 | Jacob G. Elkins,Farbod Fahimi |
| 発行日 | 2024-02-01 16:51:11+00:00 |
| arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google