Learning long range dependencies through time reversal symmetry breaking

要約

Deep State Space Models(SSMS)は、RNNが動的システムにネイティブに具体化できるため、物理学に基づいたコンピューティングパラダイムを再燃させます。
これには、これらのシステムをシミュレートして設計を導くための効率的な手法を使用して、物理的な原則に従う専用の学習アルゴリズムが必要です。
再発したハミルトニアンエコーラーニング(RHEL)を提案します。これは、非微分的であるハミルトニアンシステムの物理的軌跡の有限差として損失勾配を確実に計算するアルゴリズムです。
MLの用語では、RHELは、明示的なヤコビアン計算なしで、モデルサイズに関係なく、3つの「フォワードパス」のみを必要とし、勾配推定に分散が発生しません。
アルゴリズムの物理的実現に動機付けられ、まず継続的な時間にRHELを導入し、連続的な補助状態法との正式な同等性を実証します。
RHELが訓練したハミルトニアンシステムのシミュレーションを容易にするために、ハミルトニアン再生ユニット(HRU)と呼ばれる再発モジュールのクラスに適用される場合、バックプロパゲーション(BPTT)とのバックプロパゲーションに相当するレルの離散時間バージョンを提案します。
この設定により、これらの結果をHRUSの階層に一般化することにより、RHELのスケーラビリティを実証することができます。
RHELを適用して、ミッドレンジから長距離分類と$ \ SIM 50K $に達する長距離分類と回帰までのさまざまな時系列タスクで、線形および非線形ダイナミクスを備えたHSSMを訓練します。
RHELがすべてのモデルとタスクにわたるBPTTのパフォーマンスと一貫して一致することを示します。
この作業は、シーケンスモデリングのための自己学習機能を備えたスケーラブルでエネルギー効率の高い物理システムの設計のための新しいドアを開きます。

要約(オリジナル)

Deep State Space Models (SSMs) reignite physics-grounded compute paradigms, as RNNs could natively be embodied into dynamical systems. This calls for dedicated learning algorithms obeying to core physical principles, with efficient techniques to simulate these systems and guide their design. We propose Recurrent Hamiltonian Echo Learning (RHEL), an algorithm which provably computes loss gradients as finite differences of physical trajectories of non-dissipative, Hamiltonian systems. In ML terms, RHEL only requires three ‘forward passes’ irrespective of model size, without explicit Jacobian computation, nor incurring any variance in the gradient estimation. Motivated by the physical realization of our algorithm, we first introduce RHEL in continuous time and demonstrate its formal equivalence with the continuous adjoint state method. To facilitate the simulation of Hamiltonian systems trained by RHEL, we propose a discrete-time version of RHEL which is equivalent to Backpropagation Through Time (BPTT) when applied to a class of recurrent modules which we call Hamiltonian Recurrent Units (HRUs). This setting allows us to demonstrate the scalability of RHEL by generalizing these results to hierarchies of HRUs, which we call Hamiltonian SSMs (HSSMs). We apply RHEL to train HSSMs with linear and nonlinear dynamics on a variety of time-series tasks ranging from mid-range to long-range classification and regression with sequence length reaching $\sim 50k$. We show that RHEL consistently matches the performance of BPTT across all models and tasks. This work opens new doors for the design of scalable, energy-efficient physical systems endowed with self-learning capabilities for sequence modelling.

arxiv情報

著者 Guillaume Pourcel,Maxence Ernoult
発行日 2025-06-05 17:20:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク