要約
LIDARベースの3Dオープンボキャブラリー検出(3D OVD)のタスクでは、検出器が既製のトレーニングラベルなしでポイントクラウドから新しいオブジェクトを検出することを学習する必要があります。
以前の方法は、オブジェクトレベルの表現の学習に焦点を当て、シーンレベルの情報を無視するため、同様のクラスを持つオブジェクトを区別することは困難です。
この作業では、ローカルオブジェクトレベルの情報とグローバルシーンレベルの情報の両方を考慮して、3D OVDタスクのPSL(GLRD)フレームワークとのグローバルローカルコラボレーションの理由と議論を提案します。
具体的には、LLMはオブジェクトレベルとシーンレベルの情報に基づいて常識推論を実行するために使用され、それに応じて検出結果が改良されます。
LLMの正確な決定の能力をさらに高めるために、最適なソリューションを検索するために確率的ソフトロジックソルバー(OV-PSL)と、混乱しやすいオブジェクトのクラスを確認する討論スキームも設計します。
さらに、クラスの不均一な分布を軽減するために、静的バランススキーム(SBC)と動的バランススキーム(DBC)が設計されています。
さらに、データとトレーニングにおけるノイズの影響を減らすために、さらに反射した擬似ラベル生成(RPLG)およびバックグラウンドアウェアオブジェクトのローカリゼーション(BAOL)を提案します。
ScannetとSun RGB-Dで実施された広範な実験は、GLRDの優位性を示しています。平均平均精度の絶対的な改善は、Sun RGB-Dの$+2.82 \%$であり、部分的な開口部の環境でScannetで$+3.72 \%$です。
完全なオープンボキャブラリー設定では、平均平均精度の絶対的な改善は、Scannetで$+4.03 \%$、Sun RGB-Dで$ 14.11 \%$です。
要約(オリジナル)
The task of LiDAR-based 3D Open-Vocabulary Detection (3D OVD) requires the detector to learn to detect novel objects from point clouds without off-the-shelf training labels. Previous methods focus on the learning of object-level representations and ignore the scene-level information, thus it is hard to distinguish objects with similar classes. In this work, we propose a Global-Local Collaborative Reason and Debate with PSL (GLRD) framework for the 3D OVD task, considering both local object-level information and global scene-level information. Specifically, LLM is utilized to perform common sense reasoning based on object-level and scene-level information, where the detection result is refined accordingly. To further boost the LLM’s ability of precise decisions, we also design a probabilistic soft logic solver (OV-PSL) to search for the optimal solution, and a debate scheme to confirm the class of confusable objects. In addition, to alleviate the uneven distribution of classes, a static balance scheme (SBC) and a dynamic balance scheme (DBC) are designed. In addition, to reduce the influence of noise in data and training, we further propose Reflected Pseudo Labels Generation (RPLG) and Background-Aware Object Localization (BAOL). Extensive experiments conducted on ScanNet and SUN RGB-D demonstrate the superiority of GLRD, where absolute improvements in mean average precision are $+2.82\%$ on SUN RGB-D and $+3.72\%$ on ScanNet in the partial open-vocabulary setting. In the full open-vocabulary setting, the absolute improvements in mean average precision are $+4.03\%$ on ScanNet and $+14.11\%$ on SUN RGB-D.
arxiv情報
著者 | Xingyu Peng,Si Liu,Chen Gao,Yan Bai,Beipeng Mu,Xiaofei Wang,Huaxia Xia |
発行日 | 2025-03-26 16:18:25+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google