Believing is Seeing: Unobserved Object Detection using Generative Models

要約

画像には見えないが、カメラの近くにあるオブジェクトは検出できますか?
この研究では、画像フレームの外側に閉塞または横になっている近くのオブジェクトの位置を予測するための2D、2.5D、および3D未観測オブジェクト検出の新しいタスクを紹介します。
2Dおよび3D拡散モデルやビジョン言語モデルを含む、このタスクに対処するために、最先端の事前訓練モデルをいくつか適応させ、直接観察されないオブジェクトの存在を推測するために使用できることを示します。
このタスクをベンチマークするために、パフォーマンスのさまざまな側面をキャプチャする一連のメトリックを提案します。
Realestate10KおよびNYU深度V2データセットの屋内シーンに関する経験的評価は、観察されていないオブジェクト検出タスクの生成モデルの使用を動機付ける結果を示しています。

要約(オリジナル)

Can objects that are not visible in an image — but are in the vicinity of the camera — be detected? This study introduces the novel tasks of 2D, 2.5D and 3D unobserved object detection for predicting the location of nearby objects that are occluded or lie outside the image frame. We adapt several state-of-the-art pre-trained generative models to address this task, including 2D and 3D diffusion models and vision-language models, and show that they can be used to infer the presence of objects that are not directly observed. To benchmark this task, we propose a suite of metrics that capture different aspects of performance. Our empirical evaluation on indoor scenes from the RealEstate10k and NYU Depth v2 datasets demonstrate results that motivate the use of generative models for the unobserved object detection task.

arxiv情報

著者 Subhransu S. Bhattacharjee,Dylan Campbell,Rahul Shome
発行日 2025-03-17 09:56:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.RO パーマリンク