Rethinking Encoder-Decoder Flow Through Shared Structures

要約

密な予測タスクは、エンコーダーアーキテクチャの複雑さを増しているため、デコーダーはほぼ同じままです。
それらは、中間機能マップを順番にデコードする個々のブロックに依存しています。
デコードプロセスに追加のコンテキストを提供するために、各デコードブロックで使用される共有構造、銀行を紹介します。
これらの構造は、再サンプリングと特徴融合を介して適用することにより、大規模なデータセットでトレーニングしながら、自然および合成画像上の最先端の変圧器ベースのアーキテクチャの深さ推定のパフォーマンスを向上させます。

要約(オリジナル)

Dense prediction tasks have enjoyed a growing complexity of encoder architectures, decoders, however, have remained largely the same. They rely on individual blocks decoding intermediate feature maps sequentially. We introduce banks, shared structures that are used by each decoding block to provide additional context in the decoding process. These structures, through applying them via resampling and feature fusion, improve performance on depth estimation for state-of-the-art transformer-based architectures on natural and synthetic images whilst training on large-scale datasets.

arxiv情報

著者 Frederik Laboyrie,Mehmet Kerim Yucel,Albert Saa-Garriga
発行日 2025-01-24 14:41:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG パーマリンク