One-shot Visual Imitation via Attributed Waypoints and Demonstration Augmentation

要約

この論文では、既存の手法の動作を分析し、ワンショットの視覚的模倣の問題に対する新しいソリューションを設計します。
この設定では、エージェントは、視覚的なデモンストレーションが 1 つだけ与えられた新しいタスクの新しいインスタンスを解決する必要があります。
私たちの分析では、現在の方法が 3 つのエラーのために不十分であることが明らかになりました: 純粋なオフライン トレーニングから生じる DAgger の問題、オブジェクトと対話する際の最後の数センチメートルのエラー、実際のタスクではなくタスク コンテキストへの不適合です。
これは、a) タスクの推論 (何をするか) をタスクの実行 (どのように行うか) から分離し、b) ミスフィッティングを軽減するためのデータ拡張および生成技術を開発する、モジュラー アプローチの設計の動機となります。
前者は、タスクの実行に手作りのモーター プリミティブを活用することを可能にし、DAgger の問題と最後のセンチメートル エラーを回避します。一方、後者はモデルをタスク コンテキストではなくタスクに集中させます。
私たちのモデルは、最近の 2 つのベンチマークで 100% と 48% の成功率を達成し、現在の最先端技術をそれぞれ絶対 90% と 20% 改善しています。

要約(オリジナル)

In this paper, we analyze the behavior of existing techniques and design new solutions for the problem of one-shot visual imitation. In this setting, an agent must solve a novel instance of a novel task given just a single visual demonstration. Our analysis reveals that current methods fall short because of three errors: the DAgger problem arising from purely offline training, last centimeter errors in interacting with objects, and mis-fitting to the task context rather than to the actual task. This motivates the design of our modular approach where we a) separate out task inference (what to do) from task execution (how to do it), and b) develop data augmentation and generation techniques to mitigate mis-fitting. The former allows us to leverage hand-crafted motor primitives for task execution which side-steps the DAgger problem and last centimeter errors, while the latter gets the model to focus on the task rather than the task context. Our model gets 100% and 48% success rates on two recent benchmarks, improving upon the current state-of-the-art by absolute 90% and 20% respectively.

arxiv情報

著者 Matthew Chang,Saurabh Gupta
発行日 2023-02-09 18:56:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, cs.RO パーマリンク