要約
マルチタスクの視覚学習は、コンピューター ビジョンの重要な側面です。
しかし、現在の研究は主にマルチタスクの高密度予測設定に集中しており、本質的な 3D 世界とそのマルチビューの一貫した構造を見落としており、多彩な想像力を発揮する能力が欠けています。
これらの制限に対応して、新しい問題設定であるマルチタスク ビュー合成 (MTVS) を提示します。これは、マルチタスク予測を、RGB を含む複数のシーン プロパティに対する一連の新規ビュー合成タスクとして再解釈します。
MTVS 問題に取り組むために、マルチタスクとクロスビューの知識の両方を組み込んで複数のシーン プロパティを同時に合成するフレームワークである MuvieNeRF を提案します。
MuvieNeRF は、クロスタスク アテンション (CTA) モジュールとクロスビュー アテンション (CVA) モジュールという 2 つの主要モジュールを統合し、複数のビューとタスクにわたって情報を効率的に使用できるようにします。
合成ベンチマークと現実的ベンチマークの両方での広範な評価により、MuvieNeRF が有望な視覚的品質を備えたさまざまなシーン プロパティを同時に合成でき、さまざまな設定で従来の識別モデルを上回るパフォーマンスを発揮できることが実証されました。
特に、MuvieNeRF がさまざまな NeRF バックボーンにわたって普遍的な適用性を示すことを示します。
私たちのコードは https://github.com/zsh2000/MuvieNeRF で入手できます。
要約(オリジナル)
Multi-task visual learning is a critical aspect of computer vision. Current research, however, predominantly concentrates on the multi-task dense prediction setting, which overlooks the intrinsic 3D world and its multi-view consistent structures, and lacks the capability for versatile imagination. In response to these limitations, we present a novel problem setting — multi-task view synthesis (MTVS), which reinterprets multi-task prediction as a set of novel-view synthesis tasks for multiple scene properties, including RGB. To tackle the MTVS problem, we propose MuvieNeRF, a framework that incorporates both multi-task and cross-view knowledge to simultaneously synthesize multiple scene properties. MuvieNeRF integrates two key modules, the Cross-Task Attention (CTA) and Cross-View Attention (CVA) modules, enabling the efficient use of information across multiple views and tasks. Extensive evaluation on both synthetic and realistic benchmarks demonstrates that MuvieNeRF is capable of simultaneously synthesizing different scene properties with promising visual quality, even outperforming conventional discriminative models in various settings. Notably, we show that MuvieNeRF exhibits universal applicability across a range of NeRF backbones. Our code is available at https://github.com/zsh2000/MuvieNeRF.
arxiv情報
著者 | Shuhong Zheng,Zhipeng Bao,Martial Hebert,Yu-Xiong Wang |
発行日 | 2023-09-29 17:58:27+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google