Tapping in a Remote Vehicle’s onboard LLM to Complement the Ego Vehicle’s Field-of-View

要約

今日の先進的な自動車システムは、インテリジェントなサイバーフィジカル システム (CPS) に変わりつつあり、サイバーフィジカル コンテキストにコンピューティング インテリジェンスをもたらしています。
このようなシステムは、車両の周囲の機能を監視する先進運転支援システム (ADAS) に電力を供給します。
ただし、都市部のように周囲の物体への直接の視線が遮られるシナリオでは、このような ADAS には明らかな制限があります。
自動運転 (AD) システムを想像してみてください。たとえば、歩行者に関する位置を車両間で共有できれば、理想的には、このような遮蔽された状況で他の車両の視界から恩恵を受け、交通の安全性を高めることができます。
現在の文献では、車両間でセンサーやオブジェクトのデータをストリーミングするような問題に対処するために、路側機 (RSU) を介した車両間 (V2I) または車両間 (V2V) 通信が提案されています。
ハードウェア アクセラレータを備えた強力な集中処理ユニットに向けて進行中の車両システム アーキテクチャの革命を考慮すると、音声アシスタントを使用する際の乗客の快適性を向上させる大規模言語モデル (LLM) の車載化の予見が現実になります。
私たちは、自車両の視野 (FOV) を別の車両の FOV で補完するコンセプトを提案し、評価しています。これは、搭載された LLM を利用して、他の車両が「見ている」ものについて機械に対話させることによって行われます。
私たちの結果は、GPT-4V や GPT-4o などのごく最近のバージョンの LLM が交通状況を非常に詳細に理解しているため、交通参加者を特定するためにも使用できることを示しています。
ただし、検出品質を向上するには、より適切なプロンプトが必要であり、車両間の標準化されたメッセージ交換形式に向けた将来の作業が必要です。

要約(オリジナル)

Today’s advanced automotive systems are turning into intelligent Cyber-Physical Systems (CPS), bringing computational intelligence to their cyber-physical context. Such systems power advanced driver assistance systems (ADAS) that observe a vehicle’s surroundings for their functionality. However, such ADAS have clear limitations in scenarios when the direct line-of-sight to surrounding objects is occluded, like in urban areas. Imagine now automated driving (AD) systems that ideally could benefit from other vehicles’ field-of-view in such occluded situations to increase traffic safety if, for example, locations about pedestrians can be shared across vehicles. Current literature suggests vehicle-to-infrastructure (V2I) via roadside units (RSUs) or vehicle-to-vehicle (V2V) communication to address such issues that stream sensor or object data between vehicles. When considering the ongoing revolution in vehicle system architectures towards powerful, centralized processing units with hardware accelerators, foreseeing the onboard presence of large language models (LLMs) to improve the passengers’ comfort when using voice assistants becomes a reality. We are suggesting and evaluating a concept to complement the ego vehicle’s field-of-view (FOV) with another vehicle’s FOV by tapping into their onboard LLM to let the machines have a dialogue about what the other vehicle “sees”. Our results show that very recent versions of LLMs, such as GPT-4V and GPT-4o, understand a traffic situation to an impressive level of detail, and hence, they can be used even to spot traffic participants. However, better prompts are needed to improve the detection quality and future work is needed towards a standardised message interchange format between vehicles.

arxiv情報

著者 Malsha Ashani Mahawatta Dona,Beatriz Cabrero-Daniel,Yinan Yu,Christian Berger
発行日 2024-08-20 12:38:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク