要約
自動運転におけるシーンシミュレーションは、カスタマイズされたデータを生成できる大きな可能性があるため、大きな注目を集めています。
しかし、既存の編集可能なシーン シミュレーションのアプローチは、ユーザー インタラクション効率、マルチカメラの写真のようにリアルなレンダリング、外部デジタル アセットの統合という点で限界に直面しています。
これらの課題に対処するために、この文書では、外部デジタル資産を使用した自然言語コマンドを介して、編集可能な写真のようにリアルな 3D 運転シーン シミュレーションを可能にする最初のシステムである ChatSim を紹介します。
高度なコマンドの柔軟性による編集を可能にするために、~ChatSim は大規模言語モデル (LLM) エージェント コラボレーション フレームワークを活用しています。
写真のようにリアルな結果を生成するために、ChatSim は新しいマルチカメラ神経放射フィールド法を採用しています。
さらに、広範な高品質デジタル資産の可能性を引き出すために、ChatSim は新しいマルチカメラ照明推定方法を採用して、シーンに一貫した資産のレンダリングを実現します。
Waymo Open Dataset での実験では、ChatSim が複雑な言語コマンドを処理し、対応する写真のようにリアルなシーン ビデオを生成できることを実証しました。
要約(オリジナル)
Scene simulation in autonomous driving has gained significant attention because of its huge potential for generating customized data. However, existing editable scene simulation approaches face limitations in terms of user interaction efficiency, multi-camera photo-realistic rendering and external digital assets integration. To address these challenges, this paper introduces ChatSim, the first system that enables editable photo-realistic 3D driving scene simulations via natural language commands with external digital assets. To enable editing with high command flexibility,~ChatSim leverages a large language model (LLM) agent collaboration framework. To generate photo-realistic outcomes, ChatSim employs a novel multi-camera neural radiance field method. Furthermore, to unleash the potential of extensive high-quality digital assets, ChatSim employs a novel multi-camera lighting estimation method to achieve scene-consistent assets’ rendering. Our experiments on Waymo Open Dataset demonstrate that ChatSim can handle complex language commands and generate corresponding photo-realistic scene videos.
arxiv情報
著者 | Yuxi Wei,Zi Wang,Yifan Lu,Chenxin Xu,Changxing Liu,Hao Zhao,Siheng Chen,Yanfeng Wang |
発行日 | 2024-06-26 10:44:58+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google