High-resolution open-vocabulary object 6D pose estimation

要約

6D 姿勢推定タスクにおける目に見えないオブジェクトへの一般化は非常に困難です。
視覚言語モデル (VLM) を使用すると、自然言語記述を使用して目に見えないオブジェクトの 6D 姿勢推定をサポートできますが、これらのソリューションはモデルベースの方法と比較するとパフォーマンスが劣ります。
この研究では、テキスト プロンプトのみで説明される、目に見えないオブジェクトの 2 つのシーン間の相対姿勢推定に対処する、オープンボキャブラリーの VLM ベースのアーキテクチャである Horiyon を紹介します。
テキスト プロンプトを使用してシーン内の目に見えないオブジェクトを識別し、高解像度のマルチスケール フィーチャを取得します。
これらの機能は、登録のためにシーン間の一致を抽出するために使用されます。
REAL275、Toyota-Light、Linemod、YCB-Video という 4 つのデータセットにわたって、さまざまな目に見えないオブジェクトを使用したベンチマークでモデルを評価します。
私たちの方法は、すべてのデータセットで最先端のパフォーマンスを達成し、平均で 12.6 も優れています。以前の最高のパフォーマンスのアプローチを思い出してください。

要約(オリジナル)

The generalisation to unseen objects in the 6D pose estimation task is very challenging. While Vision-Language Models (VLMs) enable using natural language descriptions to support 6D pose estimation of unseen objects, these solutions underperform compared to model-based methods. In this work we present Horyon, an open-vocabulary VLM-based architecture that addresses relative pose estimation between two scenes of an unseen object, described by a textual prompt only. We use the textual prompt to identify the unseen object in the scenes and then obtain high-resolution multi-scale features. These features are used to extract cross-scene matches for registration. We evaluate our model on a benchmark with a large variety of unseen objects across four datasets, namely REAL275, Toyota-Light, Linemod, and YCB-Video. Our method achieves state-of-the-art performance on all datasets, outperforming by 12.6 in Average Recall the previous best-performing approach.

arxiv情報

著者 Jaime Corsetti,Davide Boscaini,Francesco Giuliari,Changjae Oh,Andrea Cavallaro,Fabio Poiesi
発行日 2024-07-11 17:03:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク