VIRT: Vision Instructed Transformer for Robotic Manipulation

要約

ロボット操作は、そのマルチモーダルな性質により、トレーニングの大きな曖昧さに直面することが多く、タスク内の操作の詳細を明確に記述するための明示的な指示が必要になります。
この研究では、最近のロボット政策は人間の幼児と同様にある程度の視覚理解能力を持って生まれてくるため、最近のロボット政策は一般的に採用されているテキストによる指導よりも自然に理解しやすいことを強調しています。
この前提に基づいて認知科学からインスピレーションを得て、テキスト注釈なしで大規模なロボットデータの事前トレーニングを実現するロボット画像パラダイムを紹介します。
さらに、人間の視線メカニズムをエミュレートするロボットの視線戦略を提案します。これにより、その後のアクションを導き、操作対象オブジェクトにポリシーの注意を集中させます。
これらのイノベーションを活用して、完全に Transformer ベースのポリシーである VIRT を開発します。
私たちは、物理的なロボットとシミュレートされた環境の両方を使用して包括的なタスクを設計し、VIRT の有効性を評価します。
その結果、VIRT は「密閉されたボトルの蓋を開ける」などの非常に競争力の高いタスクを完了できることが示され、提案された手法により、さまざまな困難なタスクにおけるベースライン ポリシーの成功率がほぼ 0% から 65% 以上に上昇しました。

要約(オリジナル)

Robotic manipulation, owing to its multi-modal nature, often faces significant training ambiguity, necessitating explicit instructions to clearly delineate the manipulation details in tasks. In this work, we highlight that vision instruction is naturally more comprehensible to recent robotic policies than the commonly adopted text instruction, as these policies are born with some vision understanding ability like human infants. Building on this premise and drawing inspiration from cognitive science, we introduce the robotic imagery paradigm, which realizes large-scale robotic data pre-training without text annotations. Additionally, we propose the robotic gaze strategy that emulates the human eye gaze mechanism, thereby guiding subsequent actions and focusing the attention of the policy on the manipulated object. Leveraging these innovations, we develop VIRT, a fully Transformer-based policy. We design comprehensive tasks using both a physical robot and simulated environments to assess the efficacy of VIRT. The results indicate that VIRT can complete very competitive tasks like “opening the lid of a tightly sealed bottle”, and the proposed techniques boost the success rates of the baseline policy on diverse challenging tasks from nearly 0% to more than 65%.

arxiv情報

著者 Zhuoling Li,Liangliang Ren,Jinrong Yang,Yong Zhao,Xiaoyang Wu,Zhenhua Xu,Xiang Bai,Hengshuang Zhao
発行日 2024-10-09 17:59:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO パーマリンク