Human-oriented Representation Learning for Robotic Manipulation

要約

人間は本質的に、操作タスクにおいて効率的に環境を探索し、環境と対話できるようにする一般化可能な視覚表現を備えています。
私たちは、このような表現は、日常のシナリオ (手の検出、状態推定など) にとって重要な複数の単純な知覚スキルを同時に学習することで自動的に生成され、現在の状態と比較してロボット操作ポリシーの学習に適していると主張します。
芸術の視覚的表現は、純粋に自己監視された目的に基づいています。
私たちは、事前にトレーニングされたビジュアル エンコーダー上での人間指向のマルチタスク微調整のレンズを通してこのアイデアを形式化します。各タスクは、人間と環境の相互作用に関連付けられた知覚スキルです。
Task Fusion Decoder をプラグアンドプレイの埋め込みトランスレータとして導入します。これは、これらの知覚スキル間の基礎的な関係を利用して、すべての知覚スキルにとって重要なものについて意味のある構造をエンコードする方向に表現学習を導き、最終的には下流のロボット操作タスクの学習を強化します。
シミュレーションと現実世界の環境の両方における、さまざまなロボット タスクと実施形態にわたる広範な実験により、当社のタスク フュージョン デコーダが、R3M、MVP、および EgoVLP を含む 3 つの最先端のビジュアル エンコーダの表現を一貫して改善していることが示されています。
下流の操作ポリシー学習。
プロジェクトページ: https://sites.google.com/view/human-owned-robot-learning

要約(オリジナル)

Humans inherently possess generalizable visual representations that empower them to efficiently explore and interact with the environments in manipulation tasks. We advocate that such a representation automatically arises from simultaneously learning about multiple simple perceptual skills that are critical for everyday scenarios (e.g., hand detection, state estimate, etc.) and is better suited for learning robot manipulation policies compared to current state-of-the-art visual representations purely based on self-supervised objectives. We formalize this idea through the lens of human-oriented multi-task fine-tuning on top of pre-trained visual encoders, where each task is a perceptual skill tied to human-environment interactions. We introduce Task Fusion Decoder as a plug-and-play embedding translator that utilizes the underlying relationships among these perceptual skills to guide the representation learning towards encoding meaningful structure for what’s important for all perceptual skills, ultimately empowering learning of downstream robotic manipulation tasks. Extensive experiments across a range of robotic tasks and embodiments, in both simulations and real-world environments, show that our Task Fusion Decoder consistently improves the representation of three state-of-the-art visual encoders including R3M, MVP, and EgoVLP, for downstream manipulation policy-learning. Project page: https://sites.google.com/view/human-oriented-robot-learning

arxiv情報

著者 Mingxiao Huo,Mingyu Ding,Chenfeng Xu,Thomas Tian,Xinghao Zhu,Yao Mu,Lingfeng Sun,Masayoshi Tomizuka,Wei Zhan
発行日 2023-10-04 17:59:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG, cs.RO パーマリンク