3D StreetUnveiler with Semantic-Aware 2DGS

要約

自動運転には、車載カメラで捉えた混雑した観察結果から人のいない街路を明らかにすることが重要です。
しかし、停止した車両や立っている歩行者などの一時的な静止物体をすべて取り除くことは、大きな課題となります。
小さなシーンでの徹底的な観察に依存するオブジェクト中心の 3D 修復とは異なり、ストリート シーンには以前の 3D 修復タスクとは異なる長い軌跡が含まれます。
撮影されたビデオのカメラ中心の移動環境は、物体観察の程度と持続時間が限られているため、タスクをさらに複雑にします。
これらの障害に対処するために、空き通りを再構築する StreetUnveiler を導入します。
StreetUnveiler は、混雑した街路の観察から人のいない街路の 3D 表現を学習します。
私たちの表現は、スケーラビリティと削除するガウス分布を識別する機能を備えたハードラベル セマンティック 2D ガウス スプラッティング (2DGS) に基づいています。
不要なガウスを削除して擬似ラベルを提供した後、レンダリングされたイメージを修復し、その後 2DGS を再最適化します。
時間的に連続する動きを考慮して、何もない街路シーンを観察された領域、部分的に観察された領域、および観察されていない領域に分割し、レンダリングされたアルファ マップを通じて位置を特定することを提案します。
この分解は、修復する必要がある領域を最小限に抑えるのに役立ちます。
修復の時間的一貫性を高めるために、フレームを逆の順序で修復し、後のフレームを以前のフレームの参照として使用して、長い軌跡の観測を完全に活用する新しい時間反転フレームワークを導入します。
街路シーンのデータセットに対して行われた実験では、誰もいない街路の 3D 表現を再構築することに成功しました。
空き街路のメッシュ表現は、さらなる用途のために抽出できます。
プロジェクト ページとその他のビジュアライゼーションは、https://streetunveiler.github.io でご覧いただけます。

要約(オリジナル)

Unveiling an empty street from crowded observations captured by in-car cameras is crucial for autonomous driving. However, removing all temporary static objects, such as stopped vehicles and standing pedestrians, presents a significant challenge. Unlike object-centric 3D inpainting, which relies on thorough observation in a small scene, street scenes involve long trajectories that differ from previous 3D inpainting tasks. The camera-centric moving environment of captured videos further complicates the task due to the limited degree and time duration of object observation. To address these obstacles, we introduce StreetUnveiler to reconstruct an empty street. StreetUnveiler learns a 3D representation of the empty street from crowded observations. Our representation is based on the hard-label semantic 2D Gaussian Splatting (2DGS) for its scalability and ability to identify Gaussians to be removed. We inpaint rendered image after removing unwanted Gaussians to provide pseudo-labels and subsequently re-optimize the 2DGS. Given its temporal continuous movement, we divide the empty street scene into observed, partial-observed, and unobserved regions, which we propose to locate through a rendered alpha map. This decomposition helps us to minimize the regions that need to be inpainted. To enhance the temporal consistency of the inpainting, we introduce a novel time-reversal framework to inpaint frames in reverse order and use later frames as references for earlier frames to fully utilize the long-trajectory observations. Our experiments conducted on the street scene dataset successfully reconstructed a 3D representation of the empty street. The mesh representation of the empty street can be extracted for further applications. Project page and more visualizations can be found at: https://streetunveiler.github.io

arxiv情報

著者 Jingwei Xu,Yikai Wang,Yiqun Zhao,Yanwei Fu,Shenghua Gao
発行日 2024-05-28 17:57:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク