From Words to Poses: Enhancing Novel Object Pose Estimation with Vision Language Models

要約

ロボットは、新しい状況に継続的に適応する必要がある現実世界のシナリオで対話することがますます想定されています。
新しい物体を検出して把握するために、ゼロショット姿勢推定器は事前知識なしで姿勢を決定します。
最近、ビジョン言語モデル (VLM) は、言語入力と画像入力の間の理解を確立することにより、ロボット工学アプリケーションにおいて大幅な進歩を示しています。
私たちの研究では、VLM のゼロショット機能を利用し、この機能を 6D オブジェクトの姿勢推定に変換します。
我々は、言語埋め込みを使用したプロンプト可能なゼロショット 6D オブジェクト姿勢推定のための新しいフレームワークを提案します。
このアイデアは、言語に埋め込まれた NeRF 再構成の関連性マップに基づいてオブジェクトの大まかな位置を導き出し、点群登録法を使用して姿勢推定を計算することです。
さらに、オープンセットの物体姿勢推定に対する LERF の適合性の分析も提供します。
関連性マップのアクティブ化しきい値などのハイパーパラメーターを調べ、インスタンス レベルおよびカテゴリ レベルでのゼロショット機能を調査します。
さらに、実世界におけるロボットの把持実験も実施する予定です。

要約(オリジナル)

Robots are increasingly envisioned to interact in real-world scenarios, where they must continuously adapt to new situations. To detect and grasp novel objects, zero-shot pose estimators determine poses without prior knowledge. Recently, vision language models (VLMs) have shown considerable advances in robotics applications by establishing an understanding between language input and image input. In our work, we take advantage of VLMs zero-shot capabilities and translate this ability to 6D object pose estimation. We propose a novel framework for promptable zero-shot 6D object pose estimation using language embeddings. The idea is to derive a coarse location of an object based on the relevancy map of a language-embedded NeRF reconstruction and to compute the pose estimate with a point cloud registration method. Additionally, we provide an analysis of LERF’s suitability for open-set object pose estimation. We examine hyperparameters, such as activation thresholds for relevancy maps and investigate the zero-shot capabilities on an instance- and category-level. Furthermore, we plan to conduct robotic grasping experiments in a real-world setting.

arxiv情報

著者 Tessa Pulli,Stefan Thalhammer,Simon Schwaiger,Markus Vincze
発行日 2024-09-09 08:15:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO パーマリンク