Open-vocabulary object 6D pose estimation

要約

本論文では、テキストプロンプトを用いたオープンボキャブラリーオブジェクトの6次元姿勢推定という新しい設定を紹介する。既存のアプローチとは対照的に、我々の設定では、(i)注目オブジェクトはテキストプロンプトのみによって指定され、(ii)推論時にオブジェクトモデル(例えばCADやビデオシーケンス)は不要であり、(iii)オブジェクトは2つの異なるシーンの2つの異なる視点から撮像され、(iv)オブジェクトは学習段階では観測されない。このような環境で動作させるために、我々は、2つの異なるシーンから対象物をセグメント化し、その相対的な6次元姿勢を推定するために、視覚言語モデルを活用する新しいアプローチを導入する。本アプローチの鍵は、プロンプトによって提供されるオブジェクトレベルの情報を、局所的な画像特徴と融合させるための注意深く考案された戦略であり、その結果、新しい概念に汎化可能な特徴空間が得られる。REAL275とToyota-Lightという2つの一般的なデータセットに基づく新しいベンチマークで我々のアプローチを検証した。その結果、我々のアプローチが、異なるシーンにおけるオブジェクトの相対的な6Dポーズの推定において、確立された手作業による手法と、最近のディープラーニングに基づくベースラインの両方を凌駕することが実証された。プロジェクトウェブサイト:https://jcorsetti.github.io/oryon-website/.

要約(オリジナル)

We introduce the new setting of open-vocabulary object 6D pose estimation, in which a textual prompt is used to specify the object of interest. In contrast to existing approaches, in our setting (i) the object of interest is specified solely through the textual prompt, (ii) no object model (e.g. CAD or video sequence) is required at inference, (iii) the object is imaged from two different viewpoints of two different scenes, and (iv) the object was not observed during the training phase. To operate in this setting, we introduce a novel approach that leverages a Vision-Language Model to segment the object of interest from two distinct scenes and to estimate its relative 6D pose. The key of our approach is a carefully devised strategy to fuse object-level information provided by the prompt with local image features, resulting in a feature space that can generalize to novel concepts. We validate our approach on a new benchmark based on two popular datasets, REAL275 and Toyota-Light, which collectively encompass 39 object instances appearing in four thousand image pairs. The results demonstrate that our approach outperforms both a well-established hand-crafted method and a recent deep learning-based baseline in estimating the relative 6D pose of objects in different scenes. Project website: https://jcorsetti.github.io/oryon-website/.

arxiv情報

著者 Jaime Corsetti,Davide Boscaini,Changjae Oh,Andrea Cavallaro,Fabio Poiesi
発行日 2023-12-01 16:17:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク