Touch begins where vision ends: Generalizable policies for contact-rich manipulation

要約

データ駆動型のアプローチは、正確な操作と闘っています。
模倣学習には、多くの困難なデモンストレーションが必要ですが、強化学習には脆い、ゼネラル化できないポリシーが得られます。
Visuotactile Local(Vital)ポリシー学習を紹介します。これは、2つのフェーズに分解することで微調整された操作タスクを解決するフレームワークを紹介します。到達段階、Vision-Languageモデル(VLM)がシーンレベルの推論を可能にし、関心のあるオブジェクトをローカライズし、局所的なインタラクションフェーズを使用して、再利用可能な攻撃的なポリシーを使用します。
このアプローチは、シーンのコンテキストは変化しますが、低レベルの相互作用はタスクインスタンス全体で一貫しているという観察によって動機付けられています。
標準的な設定で一度ローカルポリシーをトレーニングすることにより、彼らはローカライズした通過戦略を介して一般化することができます。
Vitalは、目に見えない環境での接触豊富なタスクで約90%の成功を達成し、ディストラクタに対して堅牢です。
Vitalの有効性は、3つの重要な洞察に由来しています。(1)セグメンテーションの基礎モデルにより、動作クローニングを介したトレーニングの堅牢な視覚エンコーダが可能になります。
(2)これらのエンコーダーは、残留RLを使用して学習したポリシーの一般化可能性を改善します。
(3)触覚センシングは、接触豊富なタスクのパフォーマンスを大幅に向上させます。
アブレーション研究は、これらの洞察のそれぞれを検証し、Vitalが高レベルのVLMとうまく統合し、堅牢で再利用可能な低レベルのスキルを可能にすることを実証します。
結果とビデオはhttps://vitalprecise.github.ioで入手できます。

要約(オリジナル)

Data-driven approaches struggle with precise manipulation; imitation learning requires many hard-to-obtain demonstrations, while reinforcement learning yields brittle, non-generalizable policies. We introduce VisuoTactile Local (ViTaL) policy learning, a framework that solves fine-grained manipulation tasks by decomposing them into two phases: a reaching phase, where a vision-language model (VLM) enables scene-level reasoning to localize the object of interest, and a local interaction phase, where a reusable, scene-agnostic ViTaL policy performs contact-rich manipulation using egocentric vision and tactile sensing. This approach is motivated by the observation that while scene context varies, the low-level interaction remains consistent across task instances. By training local policies once in a canonical setting, they can generalize via a localize-then-execute strategy. ViTaL achieves around 90% success on contact-rich tasks in unseen environments and is robust to distractors. ViTaL’s effectiveness stems from three key insights: (1) foundation models for segmentation enable training robust visual encoders via behavior cloning; (2) these encoders improve the generalizability of policies learned using residual RL; and (3) tactile sensing significantly boosts performance in contact-rich tasks. Ablation studies validate each of these insights, and we demonstrate that ViTaL integrates well with high-level VLMs, enabling robust, reusable low-level skills. Results and videos are available at https://vitalprecise.github.io.

arxiv情報

著者 Zifan Zhao,Siddhant Haldar,Jinda Cui,Lerrel Pinto,Raunaq Bhirangi
発行日 2025-06-16 17:59:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO パーマリンク