Policy Contrastive Decoding for Robotic Foundation Models

要約

ロボットファンデーションモデル、またはジェネラリストのロボットポリシーは、柔軟で汎用的で器用なロボットシステムを可能にする計り知れない可能性を保持しています。
彼らの進歩にもかかわらず、私たちの経験的実験は、既存のロボットポリシーがトレーニング前の軌跡から偽の相関関係を学ぶ傾向があり、トレーニングデータを超えて一般化能力に悪影響を与えることを明らかにしています。
これに取り組むために、新しいポリシーコントラストデコード(PCD)アプローチを提案します。これは、元の視覚入力とオブジェクトマスクされた視覚入力から派生したアクション確率分布を対比することにより、オブジェクト関連の視覚的手がかりに対するロボットポリシーの焦点をリダイレクトします。
トレーニングなしの方法として、当社のPCDは、モデルの重みを微調整またはアクセスする必要なく、さまざまな種類のロボットポリシーを改善するためのプラグインとして使用できます。
オートレーフレフなポリシーOpenVLAや拡散ベースのポリシーOCTOおよび$ \ PI_0 $など、3つのオープンソースロボットポリシーに加えて広範な実験を実施しています。
シミュレーションと現実世界の両方の環境で得られた結果は、PCDの柔軟性と有効性を証明します。たとえば、PCDは、シミュレーション環境で最先端のポリシー$ \ PI_0 $を8%、実際の環境で108%強化します。
コードとデモは、https://koorye.github.io/proj/pcdで公開されています。

要約(オリジナル)

Robotic foundation models, or generalist robot policies, hold immense potential to enable flexible, general-purpose and dexterous robotic systems. Despite their advancements, our empirical experiments reveal that existing robot policies are prone to learning spurious correlations from pre-training trajectories, adversely affecting their generalization capabilities beyond the training data. To tackle this, we propose a novel Policy Contrastive Decoding (PCD) approach, which redirects the robot policy’s focus toward object-relevant visual clues by contrasting action probability distributions derived from original and object-masked visual inputs. As a training-free method, our PCD can be used as a plugin to improve different types of robot policies without needing to finetune or access model weights. We conduct extensive experiments on top of three open-source robot policies, including the autoregressive policy OpenVLA and the diffusion-based policies Octo and $\pi_0$. The obtained results in both simulation and real-world environments prove PCD’s flexibility and effectiveness, e.g., PCD enhances the state-of-the-art policy $\pi_0$ by 8% in the simulation environment and by 108% in the real-world environment. Code and demos are publicly available at: https://Koorye.github.io/proj/PCD.

arxiv情報

著者 Shihan Wu,Ji Zhang,Xu Luo,Junlin Xie,Jingkuan Song,Heng Tao Shen,Lianli Gao
発行日 2025-05-19 15:39:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO パーマリンク