HaarNet: Large-scale Linear-Morphological Hybrid Network for RGB-D Semantic Segmentation

要約

さまざまなモダリティからの信号にはそれぞれ、サンプリング処理に影響を与える独自の組み合わせ代数があります。
RGB はほとんど線形です。
深さは、数学的形態学の演算に従った幾何学的信号です。
RGB-D 入力を取得するネットワークの層で両方の種類の演算子が使用できる場合、より少ないパラメーターで効果的な出力を提供できるはずです。
この論文では、形態素要素をより一般的な線形モジュールと組み合わせて、HaarNet と呼ばれる線形形態素混合ネットワークを構築するために使用されます。
これは、一連の相当な実世界のデータセットで評価された、初の大規模な線形形態学的ハイブリッドです。
ネットワークでは、形態学的ハール サンプリングがいくつかのレイヤーの両方の特徴チャネルに適用され、極値と高周波情報が分割され、両方を処理して両方のモダリティを改善できるようになります。
さらに、形態学的にパラメータ化された ReLU が使用され、形態学的に健全なアップサンプリングが適用されてフル解像度の出力が得られます。
実験では、HaarNet が最先端の CNN と競合できることが示されており、形態学的ネットワークが幾何学ベースの学習タスクの有望な研究方向であることを示唆しています。

要約(オリジナル)

Signals from different modalities each have their own combination algebra which affects their sampling processing. RGB is mostly linear; depth is a geometric signal following the operations of mathematical morphology. If a network obtaining RGB-D input has both kinds of operators available in its layers, it should be able to give effective output with fewer parameters. In this paper, morphological elements in conjunction with more familiar linear modules are used to construct a mixed linear-morphological network called HaarNet. This is the first large-scale linear-morphological hybrid, evaluated on a set of sizeable real-world datasets. In the network, morphological Haar sampling is applied to both feature channels in several layers, which splits extreme values and high-frequency information such that both can be processed to improve both modalities. Moreover, morphologically parameterised ReLU is used, and morphologically-sound up-sampling is applied to obtain a full-resolution output. Experiments show that HaarNet is competitive with a state-of-the-art CNN, implying that morphological networks are a promising research direction for geometry-based learning tasks.

arxiv情報

著者 Rick Groenendijk,Leo Dorst,Theo Gevers
発行日 2023-10-11 17:18:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, I.2.6 パーマリンク