要約
ニューラル ネットワークは従来、データが定常分布から得られるという仮定に基づいてトレーニングされてきました。
ただし、この前提に反する設定が一般的になってきています。
例には、分布シフトの下での教師あり学習、強化学習、継続学習、非定常コンテキスト バンディットが含まれます。
この研究では、適応ドリフト パラメーターを使用した Ornstein-Uhlenbeck プロセスを介して、非定常性を自動的にモデル化し、適応する新しい学習アプローチを導入します。
適応ドリフトはパラメータを初期化分布に近づける傾向があるため、このアプローチはソフト パラメータ リセットの一種として理解できます。
私たちのアプローチは、非定常の教師ありおよびオフポリシーの強化学習設定で良好に機能することを経験的に示しています。
要約(オリジナル)
Neural networks are traditionally trained under the assumption that data come from a stationary distribution. However, settings which violate this assumption are becoming more popular; examples include supervised learning under distributional shifts, reinforcement learning, continual learning and non-stationary contextual bandits. In this work we introduce a novel learning approach that automatically models and adapts to non-stationarity, via an Ornstein-Uhlenbeck process with an adaptive drift parameter. The adaptive drift tends to draw the parameters towards the initialisation distribution, so the approach can be understood as a form of soft parameter reset. We show empirically that our approach performs well in non-stationary supervised and off-policy reinforcement learning settings.
arxiv情報
著者 | Alexandre Galashov,Michalis K. Titsias,András György,Clare Lyle,Razvan Pascanu,Yee Whye Teh,Maneesh Sahani |
発行日 | 2024-11-06 16:32:40+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google