ViewActive: Active viewpoint optimization from a single image

要約

人間は、物体を観察する際に、空間的な視覚化と、現在の観察に基づいて最適な視点の候補を思い浮かべる精神的な回転能力の恩恵を受けている。なぜなら、最適な視点は、2次元画像で情景を正確に表現するために不可欠で有益な特徴を提供し、それによって下流のタスクを向上させるからである。 このような人間のような能動的な視点最適化能力をロボットに与えるために、我々は、アスペクトグラフから着想を得た現代的な機械学習アプローチであるViewActiveを提案し、現在の2D画像入力に基づいてのみ視点最適化ガイダンスを提供する。具体的には、3次元視点品質フィールド(VQF)を導入する。VQFは、アスペクトグラフに似た、コンパクトで一貫性のある視点品質分布表現であり、3つの汎用視点品質メトリクス(自己包含率、占有を考慮した表面法線エントロピー、視覚エントロピー)から構成される。軽量なViewActiveネットワーク(シングルGPUで72FPS)は、最先端の物体認識パイプラインの性能を大幅に向上させ、ロボットアプリケーションのリアルタイム動作計画に統合することができます。私たちのコードとデータセットはこちらから入手可能です: https://github.com/jiayi-wu-umd/ViewActive

要約(オリジナル)

When observing objects, humans benefit from their spatial visualization and mental rotation ability to envision potential optimal viewpoints based on the current observation. This capability is crucial for enabling robots to achieve efficient and robust scene perception during operation, as optimal viewpoints provide essential and informative features for accurately representing scenes in 2D images, thereby enhancing downstream tasks. To endow robots with this human-like active viewpoint optimization capability, we propose ViewActive, a modernized machine learning approach drawing inspiration from aspect graph, which provides viewpoint optimization guidance based solely on the current 2D image input. Specifically, we introduce the 3D Viewpoint Quality Field (VQF), a compact and consistent representation for viewpoint quality distribution similar to an aspect graph, composed of three general-purpose viewpoint quality metrics: self-occlusion ratio, occupancy-aware surface normal entropy, and visual entropy. We utilize pre-trained image encoders to extract robust visual and semantic features, which are then decoded into the 3D VQF, allowing our model to generalize effectively across diverse objects, including unseen categories.The lightweight ViewActive network (72 FPS on a single GPU) significantly enhances the performance of state-of-the-art object recognition pipelines and can be integrated into real-time motion planning for robotic applications. Our code and dataset are available here: https://github.com/jiayi-wu-umd/ViewActive

arxiv情報

著者 Jiayi Wu,Xiaomin Lin,Botao He,Cornelia Fermuller,Yiannis Aloimonos
発行日 2024-10-03 14:43:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.RO パーマリンク