要約
ロボット工学の視覚的表現学習における最近の研究は、日常のタスクを実行する人間の大規模なビデオ データセットからの学習の実行可能性を示しています。
マスクされたオートエンコーディングや対照学習などの方法を活用して、これらの表現は、視覚運動制御のポリシー学習への強力な移行を示します。
しかし、ロボット学習には、把握アフォーダンス予測、言語条件付き模倣学習、人間とロボットのコラボレーションのための意図スコアリングなど、制御できないさまざまな問題が含まれます。
まず、既存の表現がこれらのタスク全体で一貫性のない結果をもたらすことを示します。マスクされた自動エンコード アプローチは、高レベルのセマンティクスを犠牲にして低レベルの空間的特徴を取得しますが、対照的な学習アプローチはその反対を捉えます。
次に、人間のビデオと関連するキャプションから学習する言語駆動型の表現のフレームワークである Voltron を紹介します。
Voltron は、低レベルの視覚パターンを学習するための言語条件付きの視覚的再構築と、高レベルのセマンティクスをエンコードするための視覚的根拠のある言語生成をトレードオフします。
また、5 つの異なるロボット学習問題にまたがる新しい評価スイート $\unicode{x2013}$ ロボット工学の視覚的表現を総合的に評価するための統合プラットフォームを構築します。
5 つの問題すべてにわたる包括的で制御された実験を通じて、Voltron の言語主導の表現は、特に高レベルの機能を必要とする対象を絞った問題において、これまでの最先端技術よりも優れていることがわかりました。
要約(オリジナル)
Recent work in visual representation learning for robotics demonstrates the viability of learning from large video datasets of humans performing everyday tasks. Leveraging methods such as masked autoencoding and contrastive learning, these representations exhibit strong transfer to policy learning for visuomotor control. But, robot learning encompasses a diverse set of problems beyond control including grasp affordance prediction, language-conditioned imitation learning, and intent scoring for human-robot collaboration, amongst others. First, we demonstrate that existing representations yield inconsistent results across these tasks: masked autoencoding approaches pick up on low-level spatial features at the cost of high-level semantics, while contrastive learning approaches capture the opposite. We then introduce Voltron, a framework for language-driven representation learning from human videos and associated captions. Voltron trades off language-conditioned visual reconstruction to learn low-level visual patterns, and visually-grounded language generation to encode high-level semantics. We also construct a new evaluation suite spanning five distinct robot learning problems $\unicode{x2013}$ a unified platform for holistically evaluating visual representations for robotics. Through comprehensive, controlled experiments across all five problems, we find that Voltron’s language-driven representations outperform the prior state-of-the-art, especially on targeted problems requiring higher-level features.
arxiv情報
著者 | Siddharth Karamcheti,Suraj Nair,Annie S. Chen,Thomas Kollar,Chelsea Finn,Dorsa Sadigh,Percy Liang |
発行日 | 2023-02-24 17:29:31+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google