要約
大規模な言語モデル(LLM)は、ロボットおよび自律運転の分野で実質的な進歩を遂げました。
この研究では、LLMを重要な表現と統合するための先駆的な努力を表す、最初の占有ベースの大手言語モデル(OCC-LLM)を紹介します。
LLMの入力として占有率を効果的にエンコードし、占有に関連するカテゴリの不均衡に対処するために、モーション分離変分変異自動エンコーダー(MS-VAE)を提案します。
この革新的なアプローチは、前の知識を利用して、動的なオブジェクトを静的シーンと区別する前に、調整された変異オートエンコーダー(VAE)に入力します。
この分離は、静的シーンを効果的に再構築しながら、動的な軌跡に集中するモデルの能力を高めます。
OCC-LLMの有効性は、4D占有予測、自己エゴ計画、占有ベースのシーンの質問応答など、重要なタスク全体で検証されています。
包括的な評価は、OCC-LLMが既存の最先端の方法論を大幅に上回り、4Dのタスクのために組合(IOU)上の交差点(IOU)で約6 \%、ユニオン上の平均交差(MIOU)で4 \%の利益を達成することを示しています。
占有予測。
これらの発見は、ロボットおよび自律運転内の現在のパラダイムを再構築する際のOCC-LLMの変革の可能性を強調しています。
要約(オリジナル)
Large Language Models (LLMs) have made substantial advancements in the field of robotic and autonomous driving. This study presents the first Occupancy-based Large Language Model (Occ-LLM), which represents a pioneering effort to integrate LLMs with an important representation. To effectively encode occupancy as input for the LLM and address the category imbalances associated with occupancy, we propose Motion Separation Variational Autoencoder (MS-VAE). This innovative approach utilizes prior knowledge to distinguish dynamic objects from static scenes before inputting them into a tailored Variational Autoencoder (VAE). This separation enhances the model’s capacity to concentrate on dynamic trajectories while effectively reconstructing static scenes. The efficacy of Occ-LLM has been validated across key tasks, including 4D occupancy forecasting, self-ego planning, and occupancy-based scene question answering. Comprehensive evaluations demonstrate that Occ-LLM significantly surpasses existing state-of-the-art methodologies, achieving gains of about 6\% in Intersection over Union (IoU) and 4\% in mean Intersection over Union (mIoU) for the task of 4D occupancy forecasting. These findings highlight the transformative potential of Occ-LLM in reshaping current paradigms within robotic and autonomous driving.
arxiv情報
著者 | Tianshuo Xu,Hao Lu,Xu Yan,Yingjie Cai,Bingbing Liu,Yingcong Chen |
発行日 | 2025-02-10 12:55:21+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google