要約
最近、入力画像と出力画像の間の意味的対応を探索することによる画像翻訳において、パッチワイズ対比学習が注目されています。
高レベルの意味を理解するためにパッチごとのトポロジをさらに調査するために、ここではグラフ ニューラル ネットワークを利用してトポロジ対応の機能をキャプチャします。
具体的には、事前トレーニングされたエンコーダーからのパッチごとの類似性に基づいてグラフを構築します。その隣接行列は、入力と出力の間のパッチごとの関係の一貫性を高めるために共有されます。
次に、グラフニューラルネットワークからノードの特徴を取得し、対比損失を利用して相互情報量を増加させることでノード間の対応関係を強化します。
階層的な意味構造を捉えるために、グラフプーリングをさらに提案します。
実験結果は、構築されたグラフによるセマンティック エンコーディングによる画像変換の最先端の結果を示しています。
要約(オリジナル)
Recently, patch-wise contrastive learning is drawing attention for the image translation by exploring the semantic correspondence between the input and output images. To further explore the patch-wise topology for high-level semantic understanding, here we exploit the graph neural network to capture the topology-aware features. Specifically, we construct the graph based on the patch-wise similarity from a pretrained encoder, whose adjacency matrix is shared to enhance the consistency of patch-wise relation between the input and the output. Then, we obtain the node feature from the graph neural network, and enhance the correspondence between the nodes by increasing mutual information using the contrastive loss. In order to capture the hierarchical semantic structure, we further propose the graph pooling. Experimental results demonstrate the state-of-art results for the image translation thanks to the semantic encoding by the constructed graphs.
arxiv情報
著者 | Chanyong Jung,Gihyun Kwon,Jong Chul Ye |
発行日 | 2023-12-13 15:45:19+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google