要約
ビュー合成の最近の進歩により、テレプレゼンスやエンターテイメントを含む、さまざまなコンピュータ グラフィックスやマルチメディア アプリケーションにわたる没入型エクスペリエンスが大幅に強化されました。
単一の入力ビューから新しい視点を生成できるようにすることで、ビュー合成により、ユーザーは環境をより適切に認識し、対話できるようになります。
ただし、多くの最先端の手法は、高いビジュアル品質を実現する一方で、リアルタイム パフォーマンスの制限に直面しており、低遅延が重要なライブ アプリケーションにはあまり適していません。
この論文では、単一の入力画像とターゲット カメラのポーズからのリアルタイム ビュー合成用に設計された、軽量の位置認識ネットワークを紹介します。
提案されたフレームワークは、多層パーセプトロンでモデル化された位置認識埋め込みで構成され、ターゲットのポーズから位置情報を効率的にマッピングして高次元の特徴マップを生成します。
これらの特徴マップは入力画像とともにレンダリング ネットワークに供給され、デュアル エンコーダー ブランチからの特徴をマージして高レベルのセマンティクスと低レベルの詳細の両方を解決し、シーンの現実的な新しいビューを生成します。
実験結果は、特にワーピングのような明示的な幾何学的操作を行わずに複雑な並進運動を処理する場合に、既存のアプローチと比較して、私たちの方法が優れた効率と視覚的品質を達成することを示しています。
この取り組みは、ライブおよびインタラクティブなアプリケーション向けに、単一の画像からリアルタイムのビュー合成を可能にするための一歩を示します。
要約(オリジナル)
Recent advancements in view synthesis have significantly enhanced immersive experiences across various computer graphics and multimedia applications, including telepresence, and entertainment. By enabling the generation of new perspectives from a single input view, view synthesis allows users to better perceive and interact with their environment. However, many state-of-the-art methods, while achieving high visual quality, face limitations in real-time performance, which makes them less suitable for live applications where low latency is critical. In this paper, we present a lightweight, position-aware network designed for real-time view synthesis from a single input image and a target camera pose. The proposed framework consists of a Position Aware Embedding, modeled with a multi-layer perceptron, which efficiently maps positional information from the target pose to generate high dimensional feature maps. These feature maps, along with the input image, are fed into a Rendering Network that merges features from dual encoder branches to resolve both high level semantics and low level details, producing a realistic new view of the scene. Experimental results demonstrate that our method achieves superior efficiency and visual quality compared to existing approaches, particularly in handling complex translational movements without explicit geometric operations like warping. This work marks a step toward enabling real-time view synthesis from a single image for live and interactive applications.
arxiv情報
著者 | Manu Gond,Emin Zerman,Sebastian Knorr,Mårten Sjöström |
発行日 | 2024-12-18 16:20:21+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google