要約
画像には表示されていないが、カメラの近くにある物体を検出できますか?
この研究では、遮蔽されている、または画像フレームの外側にある近くの物体の位置を予測するための、2D、2.5D、および 3D の未観察物体検出の新しいタスクを導入します。
私たちは、2D および 3D の拡散モデルや視覚言語モデルなど、このタスクに対処するためにいくつかの最先端の事前トレーニング済み生成モデルを適応させ、直接観察されていないオブジェクトの存在を推論するためにそれらを使用できることを示します。
。
このタスクのベンチマークを行うために、パフォーマンスのさまざまな側面をキャプチャする一連のメトリクスを提案します。
RealEstate10k および NYU Depth v2 データセットの屋内シーンに対する実証的評価は、未観察物体検出タスクに生成モデルの使用を動機付ける結果を示しています。
要約(オリジナル)
Can objects that are not visible in an image — but are in the vicinity of the camera — be detected? This study introduces the novel tasks of 2D, 2.5D and 3D unobserved object detection for predicting the location of nearby objects that are occluded or lie outside the image frame. We adapt several state-of-the-art pre-trained generative models to address this task, including 2D and 3D diffusion models and vision-language models, and show that they can be used to infer the presence of objects that are not directly observed. To benchmark this task, we propose a suite of metrics that capture different aspects of performance. Our empirical evaluation on indoor scenes from the RealEstate10k and NYU Depth v2 datasets demonstrate results that motivate the use of generative models for the unobserved object detection task.
arxiv情報
著者 | Subhransu S. Bhattacharjee,Dylan Campbell,Rahul Shome |
発行日 | 2024-11-24 23:47:03+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google