A Training-Free Framework for Precise Mobile Manipulation of Small Everyday Objects

要約

毎日のモバイル操作タスクの多くは、ノブをつかんでキャビネットを開いたり、ライトスイッチを押したりするなど、小さなオブジェクトとの正確な相互作用が必要です。
このペーパーでは、モバイルマニピュレーターが小さなオブジェクトの操作を含むこのような正確なタスクに取り組むことを可能にする閉ループトレーニングフリーのフレームワークであるビジョンモデル(SVM)を使用してサーボを開発します。
SVMはRGB-Dリストカメラを採用し、視覚サーボを使用してコントロールします。
私たちの目新しさは、最先端のビジョンモデルを使用して、エンドエフェクターのために、多様なタスクとオクルージョンのために、リスト画像から3Dターゲットを確実に計算することにあります。
閉塞アーティファクトを緩和するために、ビジョンモデルを使用してエンドエフェクターを塗りつぶし、ターゲットのローカリゼーションを大幅に向上させます。
アウトペインティング方法の支援を受けていることを実証します。オープンボキャブラリーオブジェクト検出器は、セマンティックターゲット(ノブなど)を識別するためのドロップインモジュールとして機能し、ポイント追跡方法がユーザーのクリックによって示される相互作用サイトを確実に追跡できることを実証します。
このトレーニングフリーの方法では、現実世界の新しい環境で目に見えないオブジェクトを操作する際の85%のゼロショット成功率を取得し、オープンループ制御方法と50の絶対成功率で1000+デモンストレーションでトレーニングされた模倣学習ベースラインを上回る
%。

要約(オリジナル)

Many everyday mobile manipulation tasks require precise interaction with small objects, such as grasping a knob to open a cabinet or pressing a light switch. In this paper, we develop Servoing with Vision Models (SVM), a closed-loop training-free framework that enables a mobile manipulator to tackle such precise tasks involving the manipulation of small objects. SVM employs an RGB-D wrist camera and uses visual servoing for control. Our novelty lies in the use of state-of-the-art vision models to reliably compute 3D targets from the wrist image for diverse tasks and under occlusion due to the end-effector. To mitigate occlusion artifacts, we employ vision models to out-paint the end-effector thereby significantly enhancing target localization. We demonstrate that aided by out-painting methods, open-vocabulary object detectors can serve as a drop-in module to identify semantic targets (e.g. knobs) and point tracking methods can reliably track interaction sites indicated by user clicks. This training-free method obtains an 85% zero-shot success rate on manipulating unseen objects in novel environments in the real world, outperforming an open-loop control method and an imitation learning baseline trained on 1000+ demonstrations by an absolute success rate of 50%.

arxiv情報

著者 Arjun Gupta,Rishik Sathua,Saurabh Gupta
発行日 2025-02-19 18:59:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG, cs.RO パーマリンク