要約
最近のニューラル放射輝度場 (NeRF) 表現は、新しいビュー合成と 3D 再構成のタスクで大きな成功を収めました。
ただし、以前のトレーニング データを再訪せずにストリーミング データから継続的に学習すると、壊滅的な忘却の問題に悩まされます。
この制限により、既存の NeRF モデルを画像が連続して入ってくるシナリオに適用することはできません。
これを考慮して、この作業では、ニューラル放射輝度フィールド表現の増分学習のタスクを調査します。
まず、壊滅的な忘却の問題を軽減するために、学生と教師のパイプラインを提案します。
具体的には、各増分ステップの最後に生徒を教師として使用するプロセスを繰り返し、教師が次のステップで生徒のトレーニングを指導できるようにします。
このようにして、生徒のネットワークはストリーミング データから新しい情報を学習すると同時に、教師のネットワークから古い知識を保持することができます。
教師ネットワークは古いデータでのみトレーニングされているため、教師ネットワークからのすべての情報が役立つわけではないことを考慮して、有用な情報をフィルター処理するためにランダムな質問者と不確実性ベースのフィルターをさらに導入します。
NeRF-synthetic360 および NeRF-real360 データセットで実験を行ったところ、PSNR に関して、アプローチがベースラインを 7.3% および 25.2% 大幅に上回っています。
さらに、私たちのアプローチが大規模なカメラが外向きのデータセット ScanNet に適用できることも示しており、PSNR でベースラインを 60.0% 上回っています。
要約(オリジナル)
Recent neural radiance field (NeRF) representation has achieved great success in the tasks of novel view synthesis and 3D reconstruction. However, they suffer from the catastrophic forgetting problem when continuously learning from streaming data without revisiting the previous training data. This limitation prohibits the application of existing NeRF models to scenarios where images come in sequentially. In view of this, we explore the task of incremental learning for neural radiance field representation in this work. We first propose a student-teacher pipeline to mitigate the catastrophic forgetting problem. Specifically, we iterate the process of using the student as the teacher at the end of each incremental step and let the teacher guide the training of the student in the next step. In this way, the student network is able to learn new information from the streaming data and retain old knowledge from the teacher network simultaneously. Given that not all information from the teacher network is helpful since it is only trained with the old data, we further introduce a random inquirer and an uncertainty-based filter to filter useful information. We conduct experiments on the NeRF-synthetic360 and NeRF-real360 datasets, where our approach significantly outperforms the baselines by 7.3% and 25.2% in terms of PSNR. Furthermore, we also show that our approach can be applied to the large-scale camera facing-outwards dataset ScanNet, where we surpass the baseline by 60.0% in PSNR.
arxiv情報
著者 | Mengqi Guo,Chen Li,Gim Hee Lee |
発行日 | 2022-12-21 11:43:20+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google