OAFuser: Towards Omni-Aperture Fusion for Light Field Semantic Segmentation

要約

ライトフィールドカメラは、複雑な角度および空間の詳細を捉えることができます。
これにより、複数の角度から複雑な光のパターンと詳細を取得できるようになり、画像のセマンティック セグメンテーションの精度が大幅に向上します。
ただし、2 つの重大な問題が発生します。(1) ライト フィールド カメラの広範な角度情報には大量の冗長データが含まれており、インテリジェント エージェントの限られたハードウェア リソースでは圧倒されます。
(2) 異なるマイクロレンズによって収集されたデータには相対的な変位の差が存在します。
これらの問題に対処するために、中央ビューからの密なコンテキストを活用し、サブアパーチャ画像から角度情報を抽出して意味的に一貫した結果を生成する Omni-Aperture Fusion モデル (OAFuser) を提案します。
ライト フィールド カメラからの冗長な情報を合理化し、ネットワーク伝播中の機能損失を回避するために、シンプルでありながら非常に効果的なサブアパーチャ フュージョン モジュール (SAFM) を紹介します。
このモジュールは、角度特徴にサブアパーチャ画像を効率的に埋め込み、ネットワークがわずか (約 1GFlops) の最小限の計算要求で各サブアパーチャ画像を処理できるようにします。
さらに、視点間での空間情報の不一致に対処するために、特徴の再配置を実現し、位置ずれによる特徴のオクルージョンを防ぐ Center Angular Rectification Module (CARM) を紹介します。
提案された OAFuser は、すべての評価指標に関して 4 つの UrbanLF データセットで最先端のパフォーマンスを達成し、UrbanLF-Real Extended データセットで +3.69% のゲインで mIoU 単位で 84.93% の新記録を樹立しました。
OAFuser のソース コードは https://github.com/FeiBryantkit/OAFuser で入手できます。

要約(オリジナル)

Light field cameras are capable of capturing intricate angular and spatial details. This allows for acquiring complex light patterns and details from multiple angles, significantly enhancing the precision of image semantic segmentation. However, two significant issues arise: (1) The extensive angular information of light field cameras contains a large amount of redundant data, which is overwhelming for the limited hardware resources of intelligent agents. (2) A relative displacement difference exists in the data collected by different micro-lenses. To address these issues, we propose an Omni-Aperture Fusion model (OAFuser) that leverages dense context from the central view and extracts the angular information from sub-aperture images to generate semantically consistent results. To simultaneously streamline the redundant information from the light field cameras and avoid feature loss during network propagation, we present a simple yet very effective Sub-Aperture Fusion Module (SAFM). This module efficiently embeds sub-aperture images in angular features, allowing the network to process each sub-aperture image with a minimal computational demand of only (around 1GFlops). Furthermore, to address the mismatched spatial information across viewpoints, we present a Center Angular Rectification Module (CARM) to realize feature resorting and prevent feature occlusion caused by misalignment. The proposed OAFuser achieves state-of-the-art performance on four UrbanLF datasets in terms of all evaluation metrics and sets a new record of 84.93% in mIoU on the UrbanLF-Real Extended dataset, with a gain of +3.69%. The source code for OAFuser is available at https://github.com/FeiBryantkit/OAFuser.

arxiv情報

著者 Fei Teng,Jiaming Zhang,Kunyu Peng,Yaonan Wang,Rainer Stiefelhagen,Kailun Yang
発行日 2024-09-09 08:28:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO, eess.IV パーマリンク