要約
ますます多くのアプリケーションが、一連のシーンにわたる認識タスクのために展開されるデータ駆動型モデルに依存しています。
トレーニング データと展開データが一致しないため、新しいシーンでモデルを適応させることが、良好なパフォーマンスを得るために重要な場合がよくあります。
この作業では、展開中にグラウンド トゥルース ラベルを使用できず、前のシーンでのパフォーマンスを維持する必要があると仮定して、セマンティック セグメンテーションのタスクのための継続的なマルチシーン適応を研究します。
セグメンテーション モデルの予測を融合し、ビュー一貫性のあるレンダリングされたセマンティック ラベルを疑似ラベルとして使用してモデルを適応させることにより、各シーンのセマンティック NeRF ネットワークをトレーニングすることを提案します。
セグメンテーション モデルとの共同トレーニングにより、Semantic-NeRF モデルは効果的に 2D から 3D への知識の伝達を可能にします。
さらに、そのコンパクトなサイズにより、長期メモリに保存し、その後、任意の視点からデータをレンダリングして忘却を減らすために使用できます。
ボクセルベースのベースラインと最先端の教師なしドメイン適応法の両方を上回る ScanNet でアプローチを評価します。
要約(オリジナル)
An increasing amount of applications rely on data-driven models that are deployed for perception tasks across a sequence of scenes. Due to the mismatch between training and deployment data, adapting the model on the new scenes is often crucial to obtain good performance. In this work, we study continual multi-scene adaptation for the task of semantic segmentation, assuming that no ground-truth labels are available during deployment and that performance on the previous scenes should be maintained. We propose training a Semantic-NeRF network for each scene by fusing the predictions of a segmentation model and then using the view-consistent rendered semantic labels as pseudo-labels to adapt the model. Through joint training with the segmentation model, the Semantic-NeRF model effectively enables 2D-3D knowledge transfer. Furthermore, due to its compact size, it can be stored in a long-term memory and subsequently used to render data from arbitrary viewpoints to reduce forgetting. We evaluate our approach on ScanNet, where we outperform both a voxel-based baseline and a state-of-the-art unsupervised domain adaptation method.
arxiv情報
著者 | Zhizheng Liu,Francesco Milano,Jonas Frey,Roland Siegwart,Hermann Blum,Cesar Cadena |
発行日 | 2023-03-24 12:11:49+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google