LF Tracy: A Unified Single-Pipeline Approach for Salient Object Detection in Light Field Cameras


ライトフィールド (LF) カメラは、さまざまな視点からデータをサンプリングできるため、この点で役立ちます。
ただし、LF 顕著物体検出 (SOD) タスクに関して見落とされている 2 つの問題を特定しました。
(1): 以前のアプローチでは、主にカスタマイズされた 2 ストリーム設計を採用して、ライト フィールド画像内の空間および深度の特徴を発見していました。
(2): LF SOD のデータ拡張戦略に関する研究はほとんど行われていません。
この研究では、これらの問題に対処するための効率的なパラダイム (LF Tracy) を提案します。
これは、ネットワーク内接続を確立するために、高効率の情報集約 (IA) モジュール (約 8M パラメータ) と組み合わせられた単一パイプライン エンコーダで構成されます。
次に、MixLD と呼ばれるシンプルかつ効果的なデータ拡張戦略が、ネットワーク間の接続をブリッジするように設計されています。
特に、LF Tracy は、最新の大規模 PKU データセットで以前の結果と比較して 23% の改善を示しています。
ソース コードは https://github.com/FeiBryantkit/LF-Tracy で公開されています。


Leveraging rich information is crucial for dense prediction tasks. Light field (LF) cameras are instrumental in this regard, as they allow data to be sampled from various perspectives. This capability provides valuable spatial, depth, and angular information, enhancing scene-parsing tasks. However, we have identified two overlooked issues for the LF salient object detection (SOD) task. (1): Previous approaches predominantly employ a customized two-stream design to discover the spatial and depth features within light field images. The network struggles to learn the implicit angular information between different images due to a lack of intra-network data connectivity. (2): Little research has been directed towards the data augmentation strategy for LF SOD. Research on inter-network data connectivity is scant. In this study, we propose an efficient paradigm (LF Tracy) to address those issues. This comprises a single-pipeline encoder paired with a highly efficient information aggregation (IA) module (around 8M parameters) to establish an intra-network connection. Then, a simple yet effective data augmentation strategy called MixLD is designed to bridge the inter-network connections. Owing to this innovative paradigm, our model surpasses the existing state-of-the-art method through extensive experiments. Especially, LF Tracy demonstrates a 23% improvement over previous results on the latest large-scale PKU dataset. The source code is publicly available at: https://github.com/FeiBryantkit/LF-Tracy.


著者 Fei Teng,Jiaming Zhang,Jiawei Liu,Kunyu Peng,Xina Cheng,Zhiyong Li,Kailun Yang
発行日 2024-08-26 12:52:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO, eess.IV パーマリンク