要約
この論文では、トランスフォーマに効率的にクエリを実行して暗黙的な表現をターゲット ビューにデコードするための新しいモデルである Ray-Patch デコーダを提案します。
当社の Ray-Patch デコーディングは、グローバルな注目を失うことなく、以前のモデルと比較して計算フットプリントを最大 2 桁削減し、特定のタスク メトリクスを維持します。
私たちの新しいデコーダーの重要なアイデアは、ターゲット画像をパッチのセットに分割し、各パッチのトランスフォーマーにクエリを実行して特徴ベクトルのセットを抽出し、最終的に畳み込み層を使用してターゲット画像にデコードすることです。
私たちの実験結果は、私たちの方法の有効性、具体的には、レンダリング速度の顕著な向上と、さまざまなベースラインとデータセットに対する特定のタスクのメトリクスの同等性を定量化しています。
要約(オリジナル)
In this paper we propose the Ray-Patch decoder, a novel model to efficiently query transformers to decode implicit representations into target views. Our Ray-Patch decoding reduces the computational footprint up to two orders of magnitude compared to previous models, without losing global attention, and hence maintaining specific task metrics. The key idea of our novel decoder is to split the target image into a set of patches, then querying the transformer for each patch to extract a set of feature vectors, which are finally decoded into the target image using convolutional layers. Our experimental results quantify the effectiveness of our method, specifically the notable boost in rendering speed and equal specific task metrics for different baselines and datasets.
arxiv情報
著者 | T. B. Martins,J. Civera |
発行日 | 2023-05-16 16:03:27+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google