Feature Extractor or Decision Maker: Rethinking the Role of Visual Encoders in Visuomotor Policies

要約

エンドツーエンド (E2E) 視覚モーター ポリシーは通常、統合された全体として扱われますが、ドメイン外 (OOD) データを使用してビジュアル エンコーダーを事前トレーニングする最近のアプローチでは、ビジュアル エンコーダーをネットワークから明確に分離し、残りの部分を使用します。
ポリシーと呼ばれます。
私たちは、この機能分離の妥当性を評価するために設計された実験フレームワークである Visual Alignment Testing を提案します。
私たちの結果は、E2E トレーニング済みモデルでは、想定されている機能分離に反して、視覚エンコーダーが運動データの監視から生じる意思決定に積極的に貢献していることを示しています。
対照的に、エンコーダーにこの機能が備わっていない OOD 事前トレーニング済みモデルでは、E2E ポリシーによって達成される最先端のパフォーマンスと比較して、ベンチマーク結果で平均 42% のパフォーマンス低下が発生します。
私たちは、ビジュアル エンコーダーの役割に関するこの最初の調査が、タスク条件付きエンコーダーやコンテキスト認識型エンコーダーの開発など、意思決定能力に対処するための将来の事前トレーニング方法を導くための第一歩となると考えています。

要約(オリジナル)

An end-to-end (E2E) visuomotor policy is typically treated as a unified whole, but recent approaches using out-of-domain (OOD) data to pretrain the visual encoder have cleanly separated the visual encoder from the network, with the remainder referred to as the policy. We propose Visual Alignment Testing, an experimental framework designed to evaluate the validity of this functional separation. Our results indicate that in E2E-trained models, visual encoders actively contribute to decision-making resulting from motor data supervision, contradicting the assumed functional separation. In contrast, OOD-pretrained models, where encoders lack this capability, experience an average performance drop of 42% in our benchmark results, compared to the state-of-the-art performance achieved by E2E policies. We believe this initial exploration of visual encoders’ role can provide a first step towards guiding future pretraining methods to address their decision-making ability, such as developing task-conditioned or context-aware encoders.

arxiv情報

著者 Ruiyu Wang,Zheyu Zhuang,Shutong Jin,Nils Ingelhag,Danica Kragic,Florian T. Pokorny
発行日 2024-09-30 12:37:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO パーマリンク