要約
Vision-Language-action(VLA)モデルは、視覚的な観察と言語の指示に基づいてロボットアクションを予測することを目的としています。
既存のアプローチでは、視覚的および言語機能が独立してダウンストリームポリシーに供給され、事前に訓練されたセマンティックアラインメントを分解するため、微調整前のVisionLanguageモデル(VLM)が必要です。
Otterを提案します。Cotterは、明示的でテキスト認識の視覚機能抽出を通じて、これらの既存のアライメントを活用する新しいVLAアーキテクチャです。
すべての視覚的機能を処理する代わりに、カワウソは、ポリシートランスの言語命令と意味的に整列したタスク関連の視覚的特徴のみを選択的に抽出および渡します。
これにより、Otterは事前に訓練されたビジョン言語エンコーダーを冷凍し続けることができます。
これにより、Otterは大規模なスケールの事前トレーニングから学んだ豊富なセマンティック理解を保存および利用し、強力なゼロショット一般化機能を可能にします。
シミュレーションおよび実際の実験では、カワウソは既存のVLAモデルを大幅に上回り、新しいオブジェクトと環境に強力なゼロショットの一般化を実証しています。
ビデオ、コード、チェックポイント、およびデータセット:https://ottervla.github.io/。
要約(オリジナル)
Vision-Language-Action (VLA) models aim to predict robotic actions based on visual observations and language instructions. Existing approaches require fine-tuning pre-trained visionlanguage models (VLMs) as visual and language features are independently fed into downstream policies, degrading the pre-trained semantic alignments. We propose OTTER, a novel VLA architecture that leverages these existing alignments through explicit, text-aware visual feature extraction. Instead of processing all visual features, OTTER selectively extracts and passes only task-relevant visual features that are semantically aligned with the language instruction to the policy transformer. This allows OTTER to keep the pre-trained vision-language encoders frozen. Thereby, OTTER preserves and utilizes the rich semantic understanding learned from large-scale pre-training, enabling strong zero-shot generalization capabilities. In simulation and real-world experiments, OTTER significantly outperforms existing VLA models, demonstrating strong zeroshot generalization to novel objects and environments. Video, code, checkpoints, and dataset: https://ottervla.github.io/.
arxiv情報
著者 | Huang Huang,Fangchen Liu,Letian Fu,Tingfan Wu,Mustafa Mukadam,Jitendra Malik,Ken Goldberg,Pieter Abbeel |
発行日 | 2025-03-05 18:44:48+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google