要約
逐次的な意思決定環境では、エージェントをトレーニングするための主なアプローチは強化学習 (RL) と模倣学習 (IL) です。
報酬関数のモデル化に依存する RL とは異なり、IL は専門家のデモンストレーションを活用し、専門家のポリシー $\pi_e$ (例: 人間) が望ましい動作を提供します。
正式には、状態とアクションのペアのデータセット $D$ が提供されます: $D = {(s, a = \pi_e(s))}$。
IL 内の一般的な手法は、$\pi(s) = a$ というポリシー $\pi(s) = a$ が $D$ の教師あり学習を通じて学習される Behavior Cloning (BC) です。
$E = {\pi_i(s)}{1 \leq i \leq N}$ として示される、個別にトレーニングされた $N$ の BC ポリシーのアンサンブルを使用することで、さらなる改善を達成できます。
特定の状態 $s$ に対するアンサンブルのアクション $a$ は、$N$ アクションの集約出力です: $a = \frac{1}{N} \sum{i} \pi_i(s)$。
この論文では、アクションの差異が増大するという問題、つまり、トレーニング データで過小評価されている状態では、予測される $N$ アクション間の差異が大きくなるという観察について取り上げます。
アクションの違いが大きいと、集約されたアクションが最適ではなくなる可能性があります。
これに対処するために、計算の多様性を維持しながらポリシー間の調整を促進する方法を提案します。
このアプローチにより、アクションの違いが減り、アンサンブルが堅牢性や多様な意思決定などの固有の強みを維持できるようになります。
私たちは 8 つの多様な環境にわたってアプローチを評価し、平均エピソード リターンで測定したアクションの違いが顕著に減少し、全体的なパフォーマンスが大幅に向上していることを実証しました。
要約(オリジナル)
In sequential decision-making environments, the primary approaches for training agents are Reinforcement Learning (RL) and Imitation Learning (IL). Unlike RL, which relies on modeling a reward function, IL leverages expert demonstrations, where an expert policy $\pi_e$ (e.g., a human) provides the desired behavior. Formally, a dataset $D$ of state-action pairs is provided: $D = {(s, a = \pi_e(s))}$. A common technique within IL is Behavior Cloning (BC), where a policy $\pi(s) = a$ is learned through supervised learning on $D$. Further improvements can be achieved by using an ensemble of $N$ individually trained BC policies, denoted as $E = {\pi_i(s)}{1 \leq i \leq N}$. The ensemble’s action $a$ for a given state $s$ is the aggregated output of the $N$ actions: $a = \frac{1}{N} \sum{i} \pi_i(s)$. This paper addresses the issue of increasing action differences — the observation that discrepancies between the $N$ predicted actions grow in states that are underrepresented in the training data. Large action differences can result in suboptimal aggregated actions. To address this, we propose a method that fosters greater alignment among the policies while preserving the diversity of their computations. This approach reduces action differences and ensures that the ensemble retains its inherent strengths, such as robustness and varied decision-making. We evaluate our approach across eight diverse environments, demonstrating a notable decrease in action differences and significant improvements in overall performance, as measured by mean episode returns.
arxiv情報
著者 | Jonas Nüßlein,Maximilian Zorn,Philipp Altmann,Claudia Linnhoff-Popien |
発行日 | 2024-12-10 15:54:57+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google