要約
ライトフィールド (LF) カメラから抽出された豊富な情報を活用することは、高密度の予測タスクに役立ちます。
ただし、ライト フィールド データを適応させて顕著物体検出 (SOD) を強化することは、依然として従来の RGB 手法に従っており、コミュニティではまだ検討されていません。
これまでのアプローチでは、主にカスタム 2 ストリーム設計を使用してライト フィールド カメラ内の暗黙的な角度特徴を検出しており、異なる LF 表現間で情報が大幅に分離されていました。
この研究では、この制限に対処するための効率的なパラダイム (LF Tracy) を提案します。
私たちは、デュアルストリーム バックボーン用の従来の特殊なフュージョンおよびデコーダ アーキテクチャを避け、統合された単一パイプライン アプローチを採用しています。
これは、まず、さまざまな LF 表現の下で空間、深度、および暗黙的な角度情報の接続を橋渡しする、MixLD と呼ばれるシンプルかつ効果的なデータ拡張戦略で構成されます。
次に、非対称の機能ごとの情報融合を促進するために、高効率の情報集約 (IA) モジュールが導入されます。
この革新的なアプローチのおかげで、私たちのモデルは既存の最先端の手法を上回り、特に最新の大規模 PKU データセットで以前の結果と比較して 23% の改善を示しています。
わずか 2,890 万個のパラメータを利用することで、モデルは、RGB 画像を使用したバックボーンと比較して、300 万個の追加パラメータで精度が 10% 向上し、LF 画像を使用した場合はバックボーンが 86% 向上しました。
ソース コードは https://github.com/FeiBryantkit/LF-Tracy で公開されます。
要約(オリジナル)
Leveraging the rich information extracted from light field (LF) cameras is instrumental for dense prediction tasks. However, adapting light field data to enhance Salient Object Detection (SOD) still follows the traditional RGB methods and remains under-explored in the community. Previous approaches predominantly employ a custom two-stream design to discover the implicit angular feature within light field cameras, leading to significant information isolation between different LF representations. In this study, we propose an efficient paradigm (LF Tracy) to address this limitation. We eschew the conventional specialized fusion and decoder architecture for a dual-stream backbone in favor of a unified, single-pipeline approach. This comprises firstly a simple yet effective data augmentation strategy called MixLD to bridge the connection of spatial, depth, and implicit angular information under different LF representations. A highly efficient information aggregation (IA) module is then introduced to boost asymmetric feature-wise information fusion. Owing to this innovative approach, our model surpasses the existing state-of-the-art methods, particularly demonstrating a 23% improvement over previous results on the latest large-scale PKU dataset. By utilizing only 28.9M parameters, the model achieves a 10% increase in accuracy with 3M additional parameters compared to its backbone using RGB images and an 86% rise to its backbone using LF images. The source code will be made publicly available at https://github.com/FeiBryantkit/LF-Tracy.
arxiv情報
著者 | Fei Teng,Jiaming Zhang,Jiawei Liu,Kunyu Peng,Xina Cheng,Zhiyong Li,Kailun Yang |
発行日 | 2024-01-30 03:17:02+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google