要約
現実世界のデータを持つ微調整シミュレーショントレーニングRLエージェントは、データ分布が限られている、または歪んでいるため、重要な動作を低下させることがよくあります。
デザイナーの優先順位は、報酬機能だけでなく、タスクの選択や状態初期化などのシミュレーション設計の選択にも存在すると主張します。
実際のデータに適応する場合、エージェントは重要であるが過小評価されているシナリオで壊滅的な忘却を経験することができます。
ライブに適応することを、シミュレーションと現実の両方で政策目標を満たす必要がある多目的最適化問題としてのフレーミングを提案します。
私たちのアプローチは、シミュレーションから批評家を「設計意図のためのアンカー」(アンカー批評家)として活用しています。
現実世界の経験に訓練されたアンカー批評家と批評家の両方に対して政策を共同で最適化することにより、私たちの方法は、シミュレーションから優先順位付けされた行動を維持しながら適応を可能にします。
評価は、SIMからSIMへのベンチマークでの堅牢な動作保持と、レースの四角体を備えたSIMからリアルのシナリオを示しており、コントロール損失なしで最大50%の消費電力削減を可能にします。
また、同様のロボットプラットフォームでのライブ適応を可能にするためのオープンソースのファームウェアであるSwannflightを提供します。
要約(オリジナル)
Fine-tuning simulation-trained RL agents with real-world data often degrades crucial behaviors due to limited or skewed data distributions. We argue that designer priorities exist not just in reward functions, but also in simulation design choices like task selection and state initialization. When adapting to real-world data, agents can experience catastrophic forgetting in important but underrepresented scenarios. We propose framing live-adaptation as a multi-objective optimization problem, where policy objectives must be satisfied both in simulation and reality. Our approach leverages critics from simulation as ‘anchors for design intent’ (anchor critics). By jointly optimizing policies against both anchor critics and critics trained on real-world experience, our method enables adaptation while preserving prioritized behaviors from simulation. Evaluations demonstrate robust behavior retention in sim-to-sim benchmarks and a sim-to-real scenario with a racing quadrotor, allowing for power consumption reductions of up to 50% without control loss. We also contribute SwaNNFlight, an open-source firmware for enabling live adaptation on similar robotic platforms.
arxiv情報
著者 | Bassel El Mabsout,Shahin Roozkhosh,Siddharth Mysore,Kate Saenko,Renato Mancuso |
発行日 | 2025-05-01 15:26:45+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google