要約
3D オブジェクト分類の領域では、ラベル付きデータの不足に対処することが根本的な課題となっており、これにより従来のデータ集約型学習パラダイムの適用可能性が制限されています。
この課題は、最小限の注釈付きサンプルから堅牢な一般化を達成することが目的である少数ショット学習シナリオで特に顕著です。
これらの制限を克服するには、3D オブジェクトの最も顕著で識別可能な特徴を特定して活用することが重要です。これにより、学習効率が向上し、大規模なラベル付きデータセットへの依存が軽減されます。
この研究では、レート歪み説明 (RDE) とウェーブレット変換を最先端の投影ベースの 3D オブジェクト分類アーキテクチャに統合することで、上記の課題に対処するように設計された新しいフレームワークである RW-Net を紹介します。
提案された方法は、RDE を利用して、冗長性を削減しながら最も有益なデータ コンポーネントを識別して保存することで重要な特徴を抽出します。
このプロセスにより、効果的な意思決定に不可欠な情報が確実に保持され、限られたデータから学習するモデルの能力が最適化されます。
RDE を補完し、ウェーブレット変換を組み込むことで、低データ領域で一般化するフレームワークの機能がさらに強化されます。
入力データの低周波成分を強調することにより、ウェーブレット変換は 3D オブジェクトの基本的な幾何学的および構造的属性をキャプチャします。
これらの属性は、過学習を軽減し、さまざまなタスクやドメインにわたって学習された表現の堅牢性を向上させるのに役立ちます。
RW-Net の有効性を検証するために、数ショットの 3D オブジェクト分類のために ModelNet40、ModelNet40-C、および ScanObjectNN の 3 つのデータセットで広範な実験を実施しました。
結果は、私たちのアプローチが最先端のパフォーマンスを達成し、数回のショットの学習シナリオで優れた一般化と堅牢性を示すことを示しています。
要約(オリジナル)
In the domain of 3D object classification, a fundamental challenge lies in addressing the scarcity of labeled data, which limits the applicability of traditional data-intensive learning paradigms. This challenge is particularly pronounced in few-shot learning scenarios, where the objective is to achieve robust generalization from minimal annotated samples. To overcome these limitations, it is crucial to identify and leverage the most salient and discriminative features of 3D objects, thereby enhancing learning efficiency and reducing dependency on large-scale labeled datasets. This work introduces RW-Net, a novel framework designed to address the challenges above by integrating Rate-Distortion Explanation (RDE) and wavelet transform into a state-of-the-art projection-based 3D object classification architecture. The proposed method capitalizes on RDE to extract critical features by identifying and preserving the most informative data components while reducing redundancy. This process ensures the retention of essential information for effective decision-making, optimizing the model’s ability to learn from limited data. Complementing RDE, incorporating the wavelet transform further enhances the framework’s capability to generalize in low-data regimes. By emphasizing low-frequency components of the input data, the wavelet transform captures fundamental geometric and structural attributes of 3D objects. These attributes are instrumental in mitigating overfitting and improving the robustness of the learned representations across diverse tasks and domains. To validate the effectiveness of our RW-Net, we conduct extensive experiments on three datasets: ModelNet40, ModelNet40-C, and ScanObjectNN for few-shot 3D object classification. The results demonstrate that our approach achieves state-of-the-art performance and exhibits superior generalization and robustness in few-shot learning scenarios.
arxiv情報
著者 | Haosheng Zhang,Hao Huang |
発行日 | 2025-01-06 18:55:59+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google