要約
意図された行動のすべての側面を表す完璧な報酬関数を設計することは、特にトレーニング環境の外で一般化することはほとんど不可能です。
Active Inverse Reward Design (AIRD) は、単一のトレーニング環境で考えられる報酬関数を比較する、一連のクエリの使用を提案しました。
これにより、人間は、意図した報酬関数にわたる確率分布を計算するために、最適ではない行動に関する情報をエージェントに与えることができます。
ただし、未知の特徴が現実の環境に現れる可能性や、エージェントが報酬関数を完全に学習するまでに必要な安全対策は無視されています。
私はこの方法を改良し、リスク回避バッチアクティブ逆報酬設計 (RBAIRD) を作成しました。これは、エージェントが現実世界で使用されるときに遭遇する一連の環境であるバッチを構築し、それらを順番に処理し、所定の反復回数で次の質問を行います。
バッチの環境ごとに人間が答える必要があるクエリ。
このプロセスが 1 つのバッチで完了すると、確率が向上し、次のバッチに移されます。
これにより、現実世界のシナリオに適応し、初めて遭遇する未知の特徴の扱い方を学習できるようになります。
また、確率分布から一連の報酬関数をサンプリングし、可能な限り最も確実な報酬を獲得する軌道を計算する、逆報酬設計 (IRD) と同様のリスク回避プランナーも統合しました。
これにより、エージェントが報酬関数を学習している間の安全性が確保され、慎重さが不可欠な状況でこのアプローチを使用できるようになります。
RBAIRD は、効率、精度、アクションの確実性の点で以前のアプローチを上回り、新しい未知の機能への迅速な適応性を実証し、重要で強力な AI モデルの調整にさらに広く使用できます。
要約(オリジナル)
Designing a perfect reward function that depicts all the aspects of the intended behavior is almost impossible, especially generalizing it outside of the training environments. Active Inverse Reward Design (AIRD) proposed the use of a series of queries, comparing possible reward functions in a single training environment. This allows the human to give information to the agent about suboptimal behaviors, in order to compute a probability distribution over the intended reward function. However, it ignores the possibility of unknown features appearing in real-world environments, and the safety measures needed until the agent completely learns the reward function. I improved this method and created Risk-averse Batch Active Inverse Reward Design (RBAIRD), which constructs batches, sets of environments the agent encounters when being used in the real world, processes them sequentially, and, for a predetermined number of iterations, asks queries that the human needs to answer for each environment of the batch. After this process is completed in one batch, the probabilities have been improved and are transferred to the next batch. This makes it capable of adapting to real-world scenarios and learning how to treat unknown features it encounters for the first time. I also integrated a risk-averse planner, similar to that of Inverse Reward Design (IRD), which samples a set of reward functions from the probability distribution and computes a trajectory that takes the most certain rewards possible. This ensures safety while the agent is still learning the reward function, and enables the use of this approach in situations where cautiousness is vital. RBAIRD outperformed the previous approaches in terms of efficiency, accuracy, and action certainty, demonstrated quick adaptability to new, unknown features, and can be more widely used for the alignment of crucial, powerful AI models.
arxiv情報
著者 | Panagiotis Liampas |
発行日 | 2023-11-20 18:36:10+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google