要約
洗練された強化学習 (RL) システムが実世界の環境と有効に相互作用するには、これらのシステムに複雑な目標を伝える必要があります。
この作業では、軌道セグメントのペア間の (専門家ではない) 人間の好みの観点から定義された目標を探ります。
このアプローチは、報酬関数 (Atari ゲームやシミュレートされたロボットの移動など) にアクセスすることなく複雑な RL タスクを効果的に解決できることを示し、エージェントの環境との相互作用の 1% 未満に関するフィードバックを提供します。
これにより、人間による監視のコストが大幅に削減され、最先端の RL システムに実際に適用できるようになります。
私たちのアプローチの柔軟性を実証するために、約 1 時間の人間の時間で複雑な新しい動作をうまくトレーニングできることを示します。
これらの行動や環境は、これまで人間のフィードバックから学んだものよりもかなり複雑です。
要約(オリジナル)
For sophisticated reinforcement learning (RL) systems to interact usefully with real-world environments, we need to communicate complex goals to these systems. In this work, we explore goals defined in terms of (non-expert) human preferences between pairs of trajectory segments. We show that this approach can effectively solve complex RL tasks without access to the reward function, including Atari games and simulated robot locomotion, while providing feedback on less than one percent of our agent’s interactions with the environment. This reduces the cost of human oversight far enough that it can be practically applied to state-of-the-art RL systems. To demonstrate the flexibility of our approach, we show that we can successfully train complex novel behaviors with about an hour of human time. These behaviors and environments are considerably more complex than any that have been previously learned from human feedback.
arxiv情報
著者 | Paul Christiano,Jan Leike,Tom B. Brown,Miljan Martic,Shane Legg,Dario Amodei |
発行日 | 2023-02-17 17:00:34+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google