要約
大規模な言語モデル(LLM)などの一般的なモデル(GM)を統合すると、自律運転タスクの特殊なモデル(SMS)は、既存の特殊な運転モデルのデータ多様性とモデル能力の課題を軽減するための有望なアプローチを提示します。
ただし、この統合は非同期システムの問題につながります。これは、GMSとSMSに固有の明確な特性から生じる。
この課題に取り組むために、GMSと特殊な運転モデルのシームレスな統合を促進するための一連の新しいメカニズムを組み込んだアダプターであるNetRollerを提案します。
具体的には、非同期GMとSMSをインターフェースするためのメカニズムは、3つの重要な段階に編成されています。
Netrollerは、最初に、早期停止メカニズムを使用してLLMの推論プロセスから意味的に豊富で計算効率の高い表現を収穫します。
次に、堅牢で効率的なクロスモダリティ翻訳を容易にするために、学習可能なクエリエンミング、無意味な埋め込み、および位置層埋め込みを適用します。
最後に、計算上効率の良いクエリシフトと機能シフトメカニズムを使用して、少数のエポックの微調整を通じてSMSのパフォーマンスを向上させます。
これら3つの段階で正式化されたメカニズムに基づいて、NetRollerは、GMの状況認識を維持しながら、専門的な運転モデルをネイティブ周波数で動作させることができます。
Nuscenes Datasetで実施された実験は、Netrollerを介したGMを統合することで、計画タスクの人間の類似性と安全性が大幅に向上することを示しており、エンドツーエンドの自律運転のための検出とマッピングタスクの顕著な精度の改善も実現します。
コードとモデルは、https://github.com/rex-sys-hk/netrollerで入手できます。
要約(オリジナル)
Integrating General Models (GMs) such as Large Language Models (LLMs), with Specialized Models (SMs) in autonomous driving tasks presents a promising approach to mitigating challenges in data diversity and model capacity of existing specialized driving models. However, this integration leads to problems of asynchronous systems, which arise from the distinct characteristics inherent in GMs and SMs. To tackle this challenge, we propose NetRoller, an adapter that incorporates a set of novel mechanisms to facilitate the seamless integration of GMs and specialized driving models. Specifically, our mechanisms for interfacing the asynchronous GMs and SMs are organized into three key stages. NetRoller first harvests semantically rich and computationally efficient representations from the reasoning processes of LLMs using an early stopping mechanism, which preserves critical insights on driving context while maintaining low overhead. It then applies learnable query embeddings, nonsensical embeddings, and positional layer embeddings to facilitate robust and efficient cross-modality translation. At last, it employs computationally efficient Query Shift and Feature Shift mechanisms to enhance the performance of SMs through few-epoch fine-tuning. Based on the mechanisms formalized in these three stages, NetRoller enables specialized driving models to operate at their native frequencies while maintaining situational awareness of the GM. Experiments conducted on the nuScenes dataset demonstrate that integrating GM through NetRoller significantly improves human similarity and safety in planning tasks, and it also achieves noticeable precision improvements in detection and mapping tasks for end-to-end autonomous driving. The code and models are available at https://github.com/Rex-sys-hk/NetRoller .
arxiv情報
著者 | Ren Xin,Hongji Liu,Xiaodong Mei,Wenru Liu,Maosheng Ye,Zhili Chen,Jun Ma |
発行日 | 2025-06-17 14:52:50+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google