VIOLA: Imitation Learning for Vision-Based Manipulation with Object Proposal Priors

要約

ロボット操作のための閉ループ視覚運動ポリシーを学習するためのオブジェクト中心の模倣学習アプローチである VIOLA を紹介します。
私たちのアプローチは、事前にトレーニングされたビジョン モデルからの一般的なオブジェクトの提案に基づいて、オブジェクト中心の表現を構築します。
VIOLA は、トランスフォーマー ベースのポリシーを使用して、これらの表現を推論し、アクション予測のためにタスク関連の視覚的要素に注意を払います。
このようなオブジェクトベースの構造事前確率は、オブジェクトの変動や環境摂動に対する深層模倣学習アルゴリズムの堅牢性を向上させます。
シミュレーションと実際のロボットで VIOLA を定量的に評価します。
VIOLA の成功率は、最先端の模倣学習法より $45.8\%$ 優れています。
また、ダイニングテーブルの配置やコーヒーの淹れ方など、挑戦的な長期タスクを解決するために、物理的なロボットにうまく展開されています。
ビデオとモデルの詳細については、補足資料とプロジェクトの Web サイト (https://ut-austin-rpl.github.io/VIOLA ) を参照してください。

要約(オリジナル)

We introduce VIOLA, an object-centric imitation learning approach to learning closed-loop visuomotor policies for robot manipulation. Our approach constructs object-centric representations based on general object proposals from a pre-trained vision model. VIOLA uses a transformer-based policy to reason over these representations and attend to the task-relevant visual factors for action prediction. Such object-based structural priors improve deep imitation learning algorithm’s robustness against object variations and environmental perturbations. We quantitatively evaluate VIOLA in simulation and on real robots. VIOLA outperforms the state-of-the-art imitation learning methods by $45.8\%$ in success rate. It has also been deployed successfully on a physical robot to solve challenging long-horizon tasks, such as dining table arrangement and coffee making. More videos and model details can be found in supplementary material and the project website: https://ut-austin-rpl.github.io/VIOLA .

arxiv情報

著者 Yifeng Zhu,Abhishek Joshi,Peter Stone,Yuke Zhu
発行日 2023-03-08 17:46:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO パーマリンク