要約
【タイトル】 RePAST:相対姿勢アテンションシーン表現トランスフォーマー
【要約】
– SRTは、新しい視点のレンダリングをインタラクティブレートで実現するための手法であるが、任意の参照カメラに対するカメラ姿勢を使用するため、入力ビューの順序に対する不変性がない。
– このため、参照フレームが定期的に変更される大規模なシーンには直接適用できない。
– 本研究では、相対姿勢アテンションSRT(RePAST)を提案する:入力時に参照フレームを固定する代わりに、Transformersのアテンションメカニズムに対してペアワイズ相対カメラポーズ情報を直接注入する。
– これにより、任意のグローバル参照フレームの選択に対して定義によって不変であるモデルが得られ、同時に元の方法の全機能を保持することができる。
– 実験結果から、この不変性をモデルに追加しても品質に損失が生じないことが示された。
– 大規模シーンに完全潜在トランスフォーマーベースのレンダリング手法を適用するための一歩と考えられる。
要約(オリジナル)
The Scene Representation Transformer (SRT) is a recent method to render novel views at interactive rates. Since SRT uses camera poses with respect to an arbitrarily chosen reference camera, it is not invariant to the order of the input views. As a result, SRT is not directly applicable to large-scale scenes where the reference frame would need to be changed regularly. In this work, we propose Relative Pose Attention SRT (RePAST): Instead of fixing a reference frame at the input, we inject pairwise relative camera pose information directly into the attention mechanism of the Transformers. This leads to a model that is by definition invariant to the choice of any global reference frame, while still retaining the full capabilities of the original method. Empirical results show that adding this invariance to the model does not lead to a loss in quality. We believe that this is a step towards applying fully latent transformer-based rendering methods to large-scale scenes.
arxiv情報
| 著者 | Aleksandr Safin,Daniel Durckworth,Mehdi S. M. Sajjadi |
| 発行日 | 2023-04-03 13:13:12+00:00 |
| arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, OpenAI