How more data can hurt: Instability and regularization in next-generation reservoir computing

要約

最近、直観に反して、より多くのデータがディープ ニューラル ネットワークのパフォーマンスに悪影響を与える可能性があることが判明しました。
ここでは、この現象のより極端なバージョンが動的システムのデータ駆動型モデルで発生することを示します。
根底にあるメカニズムを解明するために、私たちは、データからダイナミクスを学習するための一般的なフレームワークである次世代リザーバー コンピューティング (NGRC) に焦点を当てます。
より多くのトレーニング データを使用してフロー マップのより適切な表現を学習したにもかかわらず、NGRC は条件の悪い「インテグレーター」を採用し、安定性を失う可能性があることがわかりました。
このデータに起因する不安定性を、NGRC の遅延状態によって作成される補助次元に関連付けます。
これらの発見に基づいて、データ サイズと並行して正則化の強度を高めるか、トレーニング中に慎重にノイズを導入することによって、不安定性を軽減する簡単な戦略を提案します。
私たちの結果は、動的システムのデータ駆動型モデリングにおける適切な正則化の重要性を強調しています。

要約(オリジナル)

It has been found recently that more data can, counter-intuitively, hurt the performance of deep neural networks. Here, we show that a more extreme version of the phenomenon occurs in data-driven models of dynamical systems. To elucidate the underlying mechanism, we focus on next-generation reservoir computing (NGRC) — a popular framework for learning dynamics from data. We find that, despite learning a better representation of the flow map with more training data, NGRC can adopt an ill-conditioned “integrator” and lose stability. We link this data-induced instability to the auxiliary dimensions created by the delayed states in NGRC. Based on these findings, we propose simple strategies to mitigate the instability, either by increasing regularization strength in tandem with data size, or by carefully introducing noise during training. Our results highlight the importance of proper regularization in data-driven modeling of dynamical systems.

arxiv情報

著者 Yuanzhao Zhang,Sean P. Cornelius
発行日 2024-07-11 16:22:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.NE, math.DS, nlin.AO パーマリンク