OCTOPUS: Open-vocabulary Content Tracking and Object Placement Using Semantic Understanding in Mixed Reality

要約

拡張現実における重要な課題の 1 つは、仮想コンテンツを自然な場所に配置することです。
既存の自動化技術は、閉じられた語彙の固定されたオブジェクトのセットでのみ機能します。
この論文では、オブジェクト配置のための新しいオープンボキャブラリー手法を紹介します。
当社の 8 段階のパイプラインは、セグメンテーション モデル、ビジョン言語モデル、LLM における最近の進歩を活用して、任意の仮想オブジェクトを任意の AR カメラ フレームまたはシーンに配置します。
予備的なユーザー調査では、私たちの手法が少なくとも人間の専門家と同等のパフォーマンスを 57% の確率で実行することが示されました。

要約(オリジナル)

One key challenge in augmented reality is the placement of virtual content in natural locations. Existing automated techniques are only able to work with a closed-vocabulary, fixed set of objects. In this paper, we introduce a new open-vocabulary method for object placement. Our eight-stage pipeline leverages recent advances in segmentation models, vision-language models, and LLMs to place any virtual object in any AR camera frame or scene. In a preliminary user study, we show that our method performs at least as well as human experts 57% of the time.

arxiv情報

著者 Luke Yoffe,Aditya Sharma,Tobias Höllerer
発行日 2023-12-20 07:34:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV パーマリンク