Efficient Driving Behavior Narration and Reasoning on Edge Device Using Large Language Models

要約

強力な推論機能を備えたディープラーニング アーキテクチャは、自動運転技術の大幅な進歩を推進しました。
この分野に適用される大規模言語モデル (LLM) は、特に視覚的なタスクにおいて、人間の知覚と同様のレベルの精度で運転シーンや動作を記述することができます。
一方、エッジ コンピューティングの急速な発展により、データ ソースに近いという利点があり、自動運転におけるエッジ デバイスの重要性がますます高まっています。
エッジ デバイスはデータをローカルで処理することで、伝送遅延と帯域幅の使用量を削減し、より高速な応答時間を実現します。
この研究では、LLM をエッジ デバイスに適用する、運転行動のナレーションと推論フレームワークを提案します。
このフレームワークは複数の路側ユニットで構成され、各ユニットに LLM が展開されます。
これらの路側機は道路データを収集し、5G NSR/NR ネットワーク経由で通信します。
私たちの実験では、エッジ デバイスに展開された LLM が満足のいく応答速度を達成できることが示されています。
さらに、システムのナレーションと推論のパフォーマンスを向上させるための迅速な戦略を提案します。
この戦略は、環境データ、エージェントデータ、モーションデータなどのマルチモーダル情報を統合します。
OpenDV-Youtube データセットに対して行われた実験は、私たちのアプローチが両方のタスクのパフォーマンスを大幅に向上させることを示しています。

要約(オリジナル)

Deep learning architectures with powerful reasoning capabilities have driven significant advancements in autonomous driving technology. Large language models (LLMs) applied in this field can describe driving scenes and behaviors with a level of accuracy similar to human perception, particularly in visual tasks. Meanwhile, the rapid development of edge computing, with its advantage of proximity to data sources, has made edge devices increasingly important in autonomous driving. Edge devices process data locally, reducing transmission delays and bandwidth usage, and achieving faster response times. In this work, we propose a driving behavior narration and reasoning framework that applies LLMs to edge devices. The framework consists of multiple roadside units, with LLMs deployed on each unit. These roadside units collect road data and communicate via 5G NSR/NR networks. Our experiments show that LLMs deployed on edge devices can achieve satisfactory response speeds. Additionally, we propose a prompt strategy to enhance the narration and reasoning performance of the system. This strategy integrates multi-modal information, including environmental, agent, and motion data. Experiments conducted on the OpenDV-Youtube dataset demonstrate that our approach significantly improves performance across both tasks.

arxiv情報

著者 Yizhou Huang,Yihua Cheng,Kezhi Wang
発行日 2024-09-30 15:03:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.RO パーマリンク