Learning Generalizable Feature Fields for Mobile Manipulation

要約

モバイル操作における未解決の問題は、ロボットが環境内での移動とオブジェクトの操作の両方にそれを使用できるように、オブジェクトとシーンを統一された方法でどのように表現するかということです。
後者では、詳細なセマンティクスを理解しながら複雑なジオメトリをキャプチャする必要がありますが、前者では、広大な物理スケールに継承される複雑さをキャプチャする必要があります。
この研究では、リアルタイムで実行されるナビゲーションと操作の両方の統一表現として機能する、シーンレベルの一般化可能なニューラル特徴フィールドである GeFF (Generalizable Feature Fields) を紹介します。
これを行うために、生成的な新しいビューの合成を事前トレーニング タスクとして扱い、その後、CLIP 特徴の蒸留によって、結果として得られる豊富なシーンの事前分布を自然言語と調整します。
マニピュレータを備えた四足歩行ロボットに GeFF を展開することで、このアプローチの有効性を実証します。
動的シーンでオープンボキャブラリーのモバイル操作を実行するときに、実行時間だけでなくオープンセットオブジェクトに一般化する GeFF の能力も評価します。

要約(オリジナル)

An open problem in mobile manipulation is how to represent objects and scenes in a unified manner, so that robots can use it both for navigating in the environment and manipulating objects. The latter requires capturing intricate geometry while understanding fine-grained semantics, whereas the former involves capturing the complexity inherit to an expansive physical scale. In this work, we present GeFF (Generalizable Feature Fields), a scene-level generalizable neural feature field that acts as a unified representation for both navigation and manipulation that performs in real-time. To do so, we treat generative novel view synthesis as a pre-training task, and then align the resulting rich scene priors with natural language via CLIP feature distillation. We demonstrate the effectiveness of this approach by deploying GeFF on a quadrupedal robot equipped with a manipulator. We evaluate GeFF’s ability to generalize to open-set objects as well as running time, when performing open-vocabulary mobile manipulation in dynamic scenes.

arxiv情報

著者 Ri-Zhao Qiu,Yafei Hu,Ge Yang,Yuchen Song,Yang Fu,Jianglong Ye,Jiteng Mu,Ruihan Yang,Nikolay Atanasov,Sebastian Scherer,Xiaolong Wang
発行日 2024-03-12 11:51:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, cs.RO パーマリンク