OCTO+: A Suite for Automatic Open-Vocabulary Object Placement in Mixed Reality

要約

拡張現実における重要な課題の 1 つは、仮想コンテンツを自然な場所に配置することです。
既存の自動化手法のほとんどは、閉じられた語彙の固定されたオブジェクトのセットでのみ機能します。
この論文では、オープン語彙視覚言語モデルの最近の進歩を利用した自動オブジェクト配置のためのいくつかの方法を紹介し、評価します。
多面的な評価により、新しい最先端の手法である OCTO+ を特定します。
また、拡張現実における仮想オブジェクトの配置を自動的に評価するベンチマークも導入し、コストのかかるユーザー調査の必要性を軽減します。
これにより、人間による評価に加えて、OCTO+ が 70% 以上の確率でオブジェクトを有効な領域に配置し、さまざまなメトリクスで他の方法よりも優れていることがわかりました。

要約(オリジナル)

One key challenge in Augmented Reality is the placement of virtual content in natural locations. Most existing automated techniques can only work with a closed-vocabulary, fixed set of objects. In this paper, we introduce and evaluate several methods for automatic object placement using recent advances in open-vocabulary vision-language models. Through a multifaceted evaluation, we identify a new state-of-the-art method, OCTO+. We also introduce a benchmark for automatically evaluating the placement of virtual objects in augmented reality, alleviating the need for costly user studies. Through this, in addition to human evaluations, we find that OCTO+ places objects in a valid region over 70% of the time, outperforming other methods on a range of metrics.

arxiv情報

著者 Aditya Sharma,Luke Yoffe,Tobias Höllerer
発行日 2024-01-17 04:52:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV パーマリンク