Task-specific Scene Structure Representations

要約

シーンの有益な構造を理解することは、低レベルの視覚タスクにとって不可欠です。
残念ながら、視覚的特徴の影響はタスク固有であるため、有益な構造の具体的な視覚的定義を取得することは困難です。
この論文では、シーンのタスク固有の構造ガイダンスを抽出するための単一の一般的なニューラル ネットワーク アーキテクチャを提案します。
これを行うには、最初に従来のスペクトル クラスタリング手法を分析します。この手法では、一連の固有ベクトルを計算して、画像ドメイン上に小さなコンパクトな構造を形成するセグメント化されたグラフをモデル化します。
次に、タスク固有の有益な構造を表すために、従来のグラフ分割問題を \textit{Scene Structure Guidance Network (SSGNet)} という名前の学習可能なネットワークに展開します。
SSGNet は、画像構造の明示的な特徴表現を生成する固有ベクトルの係数のセットを生成します。
さらに、当社の SSGNet は軽量 ($\sim$ 55K パラメータ) であり、既製のアーキテクチャのプラグアンドプレイ モジュールとして使用できます。
トレーニング中にタスク固有のシーン構造の生成を強制する2つの新しいトレーニング損失を提案することにより、監視なしでSSGNetを最適化します。
私たちの主な貢献は、このような単純なネットワークが、ジョイント アップサンプリングや画像ノイズ除去など、いくつかの低レベル ビジョン アプリケーションで最先端の結果を達成できることを示すことです。
また、構造埋め込みフレームワークを使用する既存の方法と比較して、SSGNet が目に見えないデータセットでよく一般化されることも示します。
ソース コードは https://github.com/jsshin98/SSGNet で入手できます。

要約(オリジナル)

Understanding the informative structures of scenes is essential for low-level vision tasks. Unfortunately, it is difficult to obtain a concrete visual definition of the informative structures because influences of visual features are task-specific. In this paper, we propose a single general neural network architecture for extracting task-specific structure guidance for scenes. To do this, we first analyze traditional spectral clustering methods, which computes a set of eigenvectors to model a segmented graph forming small compact structures on image domains. We then unfold the traditional graph-partitioning problem into a learnable network, named \textit{Scene Structure Guidance Network (SSGNet)}, to represent the task-specific informative structures. The SSGNet yields a set of coefficients of eigenvectors that produces explicit feature representations of image structures. In addition, our SSGNet is light-weight ($\sim$ 55K parameters), and can be used as a plug-and-play module for off-the-shelf architectures. We optimize the SSGNet without any supervision by proposing two novel training losses that enforce task-specific scene structure generation during training. Our main contribution is to show that such a simple network can achieve state-of-the-art results for several low-level vision applications including joint upsampling and image denoising. We also demonstrate that our SSGNet generalizes well on unseen datasets, compared to existing methods which use structural embedding frameworks. Our source codes are available at https://github.com/jsshin98/SSGNet.

arxiv情報

著者 Jisu Shin,Seunghyun Shin,Hae-Gon Jeon
発行日 2023-01-02 08:25:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク