要約
自動運転 (AD) は近年大幅に改善され、3D 検出、分類、位置特定の有望な結果を達成しました。
しかし、多くの課題が残っています。
歩行者の行動の意味的な理解と、歩行者とのインタラクションの下流側の処理。
大規模言語モデル (LLM) と視覚言語モデル (VLM) の応用に関する最近の研究は、多様な交通シナリオにおける現場の理解と高レベルの操作計画において有望な結果を達成しました。
ただし、10 億パラメータの LLM を車両に展開するには、大量の計算リソースとメモリ リソースが必要です。
この論文では、より小さなビジョン ネットワークへの意味ラベルの効果的な知識の抽出を分析しました。これは、計画と制御のための下流の意思決定のための複雑なシーンの意味表現に使用できます。
要約(オリジナル)
Autonomous driving (AD) has experienced significant improvements in recent years and achieved promising 3D detection, classification, and localization results. However, many challenges remain, e.g. semantic understanding of pedestrians’ behaviors, and downstream handling for pedestrian interactions. Recent studies in applications of Large Language Models (LLM) and Vision-Language Models (VLM) have achieved promising results in scene understanding and high-level maneuver planning in diverse traffic scenarios. However, deploying the billion-parameter LLMs to vehicles requires significant computation and memory resources. In this paper, we analyzed effective knowledge distillation of semantic labels to smaller Vision networks, which can be used for the semantic representation of complex scenes for downstream decision-making for planning and control.
arxiv情報
著者 | Haoxiang Gao,Yu Zhao |
発行日 | 2025-01-12 01:31:07+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google