Boosting Robustness in Preference-Based Reinforcement Learning with Dynamic Sparsity

要約

自律型エージェントが人間中心の環境にうまく統合するには、エージェントがネイティブ環境で人間から学び、人間に適応できる必要があります。
好みに基づく強化学習 (PbRL) は、人間の好みから報酬関数を学習する有望なアプローチです。
これにより、RL エージェントは人間の欲求に基づいて行動を適応させることができます。
しかし、人間は多様な情報に満ちた世界に住んでいますが、そのほとんどは特定のタスクの完了には関係ありません。
エージェントがタスク関連の環境機能のサブセットに焦点を当てることを学ぶことが不可欠になります。
残念ながら、これまでの研究ではこの側面がほとんど無視されてきました。
主に、タスク関連の機能のみを含むように慎重に構築された標準的な RL 環境における PbRL アルゴリズムの改善に焦点を当てています。
これにより、アルゴリズムがよりノイズの多い現実世界の設定に効果的に移行できなくなる可能性があります。
そのために、この研究では R2N (Robust-to-Noise) を提案します。これは、動的スパース トレーニングの原理を利用して、タスク関連の特徴に焦点を当てることができる堅牢な報酬モデルを学習する最初の PbRL アルゴリズムです。
私たちは、状態の特徴の最大 95% が無関係な気を散らす RL 問題設定である、非常に騒々しい環境設定における R2N の有効性を研究します。
シミュレートされた教師を用いた実験では、R2N がニューラル ネットワークの疎な接続を適応させてタスク関連の機能に焦点を当てることができ、複数の移動および制御環境において R2N がいくつかの最先端の PbRL アルゴリズムを大幅に上回るパフォーマンスを発揮できることを実証しました。

要約(オリジナル)

For autonomous agents to successfully integrate into human-centered environments, agents should be able to learn from and adapt to humans in their native settings. Preference-based reinforcement learning (PbRL) is a promising approach that learns reward functions from human preferences. This enables RL agents to adapt their behavior based on human desires. However, humans live in a world full of diverse information, most of which is not relevant to completing a particular task. It becomes essential that agents learn to focus on the subset of task-relevant environment features. Unfortunately, prior work has largely ignored this aspect; primarily focusing on improving PbRL algorithms in standard RL environments that are carefully constructed to contain only task-relevant features. This can result in algorithms that may not effectively transfer to a more noisy real-world setting. To that end, this work proposes R2N (Robust-to-Noise), the first PbRL algorithm that leverages principles of dynamic sparse training to learn robust reward models that can focus on task-relevant features. We study the effectiveness of R2N in the Extremely Noisy Environment setting, an RL problem setting where up to 95% of the state features are irrelevant distractions. In experiments with a simulated teacher, we demonstrate that R2N can adapt the sparse connectivity of its neural networks to focus on task-relevant features, enabling R2N to significantly outperform several state-of-the-art PbRL algorithms in multiple locomotion and control environments.

arxiv情報

著者 Calarina Muslimani,Bram Grooten,Deepak Ranganatha Sastry Mamillapalli,Mykola Pechenizkiy,Decebal Constantin Mocanu,Matthew E. Taylor
発行日 2024-06-10 17:31:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク