DINOBot: Robot Manipulation via Retrieval and Alignment with Vision Foundation Models

要約

私たちは、DINO で訓練されたビジョン トランスフォーマーから抽出された特徴の画像レベルおよびピクセル レベルの機能を活用する、ロボット操作のための新しい模倣学習フレームワークである DINOBot を提案します。
新しいオブジェクトと対話するとき、DINOBot はまずこれらの機能を使用して人間のデモンストレーション中に経験した視覚的に最も類似したオブジェクトを取得し、次にこのオブジェクトを使用してそのエンドエフェクターを新しいオブジェクトと位置合わせし、効果的な対話を可能にします。
日常業務に関する一連の実世界実験を通じて、視覚基盤モデルの画像レベルとピクセルレベルの両方の特性を活用することで、前例のない学習効率と一般化が可能になることを示しました。
ビデオとコードは https://www.robot-learning.uk/dinobot で入手できます。

要約(オリジナル)

We propose DINOBot, a novel imitation learning framework for robot manipulation, which leverages the image-level and pixel-level capabilities of features extracted from Vision Transformers trained with DINO. When interacting with a novel object, DINOBot first uses these features to retrieve the most visually similar object experienced during human demonstrations, and then uses this object to align its end-effector with the novel object to enable effective interaction. Through a series of real-world experiments on everyday tasks, we show that exploiting both the image-level and pixel-level properties of vision foundation models enables unprecedented learning efficiency and generalisation. Videos and code are available at https://www.robot-learning.uk/dinobot.

arxiv情報

著者 Norman Di Palo,Edward Johns
発行日 2024-02-20 17:48:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO パーマリンク