ViewActive: Active viewpoint optimization from a single image

要約

物体を観察するとき、人間は空間視覚化と精神回転能力の恩恵を受けて、現在の観察に基づいて潜在的な最適な視点を思い描くことができます。
この機能は、ロボットが動作中に効率的かつ堅牢なシーン認識を実現できるようにするために非常に重要です。最適な視点は、2D 画像でシーンを正確に表現するために不可欠で有益な機能を提供し、それによって下流のタスクを強化するためです。
この人間のようなアクティブな視点最適化機能をロボットに与えるために、現在の 2D 画像入力のみに基づいて視点最適化のガイダンスを提供する、アスペクト グラフからインスピレーションを得た最新の機械学習アプローチである ViewActive を提案します。
具体的には、アスペクト グラフに似た視点品質分布のコンパクトで一貫した表現である 3D 視点品質フィールド (VQF) を導入します。これは、自己オクルージョン率、占有を意識した表面法線エントロピー、
そして視覚的なエントロピー。
事前トレーニングされた画像エンコーダーを利用して、堅牢な視覚的およびセマンティックな特徴を抽出し、3D VQF にデコードして、目に見えないカテゴリを含む多様なオブジェクトにわたってモデルを効果的に一般化できるようにします。軽量の ViewActive ネットワーク (単一 GPU で 72 FPS)
最先端の物体認識パイプラインのパフォーマンスを大幅に強化し、ロボット アプリケーションのリアルタイム動作計画に統合できます。
私たちのコードとデータセットはここから入手できます: https://github.com/jiayi-wu-umd/ViewActive

要約(オリジナル)

When observing objects, humans benefit from their spatial visualization and mental rotation ability to envision potential optimal viewpoints based on the current observation. This capability is crucial for enabling robots to achieve efficient and robust scene perception during operation, as optimal viewpoints provide essential and informative features for accurately representing scenes in 2D images, thereby enhancing downstream tasks. To endow robots with this human-like active viewpoint optimization capability, we propose ViewActive, a modernized machine learning approach drawing inspiration from aspect graph, which provides viewpoint optimization guidance based solely on the current 2D image input. Specifically, we introduce the 3D Viewpoint Quality Field (VQF), a compact and consistent representation for viewpoint quality distribution similar to an aspect graph, composed of three general-purpose viewpoint quality metrics: self-occlusion ratio, occupancy-aware surface normal entropy, and visual entropy. We utilize pre-trained image encoders to extract robust visual and semantic features, which are then decoded into the 3D VQF, allowing our model to generalize effectively across diverse objects, including unseen categories.The lightweight ViewActive network (72 FPS on a single GPU) significantly enhances the performance of state-of-the-art object recognition pipelines and can be integrated into real-time motion planning for robotic applications. Our code and dataset are available here: https://github.com/jiayi-wu-umd/ViewActive

arxiv情報

著者 Jiayi Wu,Xiaomin Lin,Botao He,Cornelia Fermuller,Yiannis Aloimonos
発行日 2024-09-18 12:45:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO パーマリンク