LF Tracy: A Unified Single-Pipeline Approach for Salient Object Detection in Light Field Cameras

要約

豊富な情報を活用することは、高密度の予測タスクにとって非常に重要です。
ライトフィールド (LF) カメラは、さまざまな視点からデータをサンプリングできるため、この点で役立ちます。
この機能により、貴重な空間、深度、角度情報が提供され、シーン解析タスクが強化されます。
ただし、LF 顕著物体検出 (SOD) タスクに関して見落とされている 2 つの問題を特定しました。
(1): 以前のアプローチでは、主にカスタマイズされた 2 ストリーム設計を採用して、ライト フィールド画像内の空間および深度の特徴を発見していました。
ネットワーク内のデータ接続が欠如しているため、ネットワークは異なる画像間の暗黙的な角度情報を学習するのに苦労します。
(2): LF SOD のデータ拡張戦略に関する研究はほとんど行われていません。
ネットワーク間のデータ接続に関する研究はほとんどありません。
この研究では、これらの問題に対処するための効率的なパラダイム (LF Tracy) を提案します。
これは、ネットワーク内接続を確立するために、高効率の情報集約 (IA) モジュール (約 8M パラメータ) と組み合わせられた単一パイプライン エンコーダで構成されます。
次に、MixLD と呼ばれるシンプルかつ効果的なデータ拡張戦略が、ネットワーク間の接続をブリッジするように設計されています。
この革新的なパラダイムにより、私たちのモデルは広範な実験を通じて既存の最先端の手法を超えています。
特に、LF Tracy は、最新の大規模 PKU データセットで以前の結果と比較して 23% の改善を示しています。
ソース コードは https://github.com/FeiBryantkit/LF-Tracy で公開されています。

要約(オリジナル)

Leveraging rich information is crucial for dense prediction tasks. Light field (LF) cameras are instrumental in this regard, as they allow data to be sampled from various perspectives. This capability provides valuable spatial, depth, and angular information, enhancing scene-parsing tasks. However, we have identified two overlooked issues for the LF salient object detection (SOD) task. (1): Previous approaches predominantly employ a customized two-stream design to discover the spatial and depth features within light field images. The network struggles to learn the implicit angular information between different images due to a lack of intra-network data connectivity. (2): Little research has been directed towards the data augmentation strategy for LF SOD. Research on inter-network data connectivity is scant. In this study, we propose an efficient paradigm (LF Tracy) to address those issues. This comprises a single-pipeline encoder paired with a highly efficient information aggregation (IA) module (around 8M parameters) to establish an intra-network connection. Then, a simple yet effective data augmentation strategy called MixLD is designed to bridge the inter-network connections. Owing to this innovative paradigm, our model surpasses the existing state-of-the-art method through extensive experiments. Especially, LF Tracy demonstrates a 23% improvement over previous results on the latest large-scale PKU dataset. The source code is publicly available at: https://github.com/FeiBryantkit/LF-Tracy.

arxiv情報

著者 Fei Teng,Jiaming Zhang,Jiawei Liu,Kunyu Peng,Xina Cheng,Zhiyong Li,Kailun Yang
発行日 2024-08-26 12:52:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO, eess.IV パーマリンク