Learning Interpretable Models of Aircraft Handling Behaviour by Reinforcement Learning from Human Feedback

要約

私たちは、人間の好みのフィードバックから強化学習 (RL) を介してソフトウェア モデルで高速ジェット パイロットの操縦能力を捕捉する方法を提案します。
私たちは、シミュレーションされた飛行軌跡に対するペアワイズ設定を使用して、報酬ツリーと呼ばれる解釈可能なルールベースのモデルを学習します。これにより、説明的根拠に沿って軌跡を自動スコアリングすることが可能になります。
目標として報酬ツリーを使用して高品質のハンドリング動作を実行するように RL エージェントをトレーニングし、それによって反復的な好みの収集とツリーとエージェントの両方のさらなる改良のためのデータを生成します。
合成選好を用いた実験では、報酬ツリーが定量的および定性的評価において解釈不可能なニューラルネットワーク報酬モデルと競合することが示されています。

要約(オリジナル)

We propose a method to capture the handling abilities of fast jet pilots in a software model via reinforcement learning (RL) from human preference feedback. We use pairwise preferences over simulated flight trajectories to learn an interpretable rule-based model called a reward tree, which enables the automated scoring of trajectories alongside an explanatory rationale. We train an RL agent to execute high-quality handling behaviour by using the reward tree as the objective, and thereby generate data for iterative preference collection and further refinement of both tree and agent. Experiments with synthetic preferences show reward trees to be competitive with uninterpretable neural network reward models on quantitative and qualitative evaluations.

arxiv情報

著者 Tom Bewley,Jonathan Lawry,Arthur Richards
発行日 2023-05-26 13:37:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI パーマリンク