要約
新しいシナリオに直面した場合、最初の試みで成功するのは難しい場合があります。
このような困難な状況では、迅速かつ有意義に再試行する方法を知ることが重要です。
再試行動作は、さまざまなデータに基づいて訓練されたロボットで自然に現れる可能性がありますが、そのようなロボット ポリシーは通常、方向性のない再試行動作のみを示し、回復不可能な間違いが発生する前に次善のアプローチを終了しない可能性があります。
さまざまな戦略を試し、評価し、再試行する明確な能力を植え付けることで、これらのロボット ポリシーを改善できます。
ベルマン誘導再試行を導入します。これは、ロボットの進捗状況を監視し、計画の変更が必要な時期を検出し、ロボットが成功するまで実行された戦略を適応させることにより、基本的なロボット ポリシーに基づいて機能するアルゴリズムです。
私たちは、さまざまなシナリオの専門家によるデモンストレーションに基づいてトレーニングされた基本ポリシーから開始します。
次に、同じ専門家のデモンストレーションを使用して、タスクの完了を推定する価値関数をトレーニングします。
テスト中に、値関数を使用して、予想される進捗率と達成された進捗率を比較します。
現在の戦略が適切な速度で進歩しない場合、ロボットを回復し、最近失敗した動作から逸脱しながら、基本ポリシーから新しい戦略をサンプリングします。
私たちは、さまざまなシナリオを含むシミュレートされた現実世界の環境でメソッドを評価します。
ベルマン誘導再試行は、基本ポリシーの平均絶対成功率をシミュレーションで 20% 以上、実世界の実験で 50% 以上増加させることがわかり、明示的な試行錯誤機能を既存のトレーニング済みポリシーに浸透させるための有望なフレームワークを示しています。
評価ビデオやその他のドキュメントについては、https://sites.google.com/view/to-err-robotic/home にアクセスしてください。
要約(オリジナル)
When faced with a novel scenario, it can be hard to succeed on the first attempt. In these challenging situations, it is important to know how to retry quickly and meaningfully. Retrying behavior can emerge naturally in robots trained on diverse data, but such robot policies will typically only exhibit undirected retrying behavior and may not terminate a suboptimal approach before an unrecoverable mistake. We can improve these robot policies by instilling an explicit ability to try, evaluate, and retry a diverse range of strategies. We introduce Bellman-Guided Retrials, an algorithm that works on top of a base robot policy by monitoring the robot’s progress, detecting when a change of plan is needed, and adapting the executed strategy until the robot succeeds. We start with a base policy trained on expert demonstrations of a variety of scenarios. Then, using the same expert demonstrations, we train a value function to estimate task completion. During test time, we use the value function to compare our expected rate of progress to our achieved rate of progress. If our current strategy fails to make progress at a reasonable rate, we recover the robot and sample a new strategy from the base policy while skewing it away from behaviors that have recently failed. We evaluate our method on simulated and real-world environments that contain a diverse suite of scenarios. We find that Bellman-Guided Retrials increases the average absolute success rates of base policies by more than 20% in simulation and 50% in real-world experiments, demonstrating a promising framework for instilling existing trained policies with explicit trial and error capabilities. For evaluation videos and other documentation, go to https://sites.google.com/view/to-err-robotic/home
arxiv情報
著者 | Maximilian Du,Alexander Khazatsky,Tobias Gerstenberg,Chelsea Finn |
発行日 | 2024-06-22 18:57:37+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google