Automating eHMI Action Design with LLMs for Automated Vehicle Communication

要約

自動化された車両(AVS)と他の道路利用者間に明示的な通信チャネルがないため、不確実なシナリオでメッセージを効果的に伝えるために、外部のヒューマシンインターフェイス(EHMI)を使用する必要があります。
現在、ほとんどのEHMI研究は、これらのメッセージを実行するために事前定義されたテキストメッセージと手動で設計されたアクションを採用しています。これにより、動的シナリオの適応性が不可欠なEHMISの実際の展開が制限されています。
大規模な言語モデル(LLM)の一般化と汎用性を考えると、メッセージアクションデザインタスクの自動アクションデザイナーとして潜在的に機能する可能性があります。
このアイデアを検証するために、3つの貢献をします。(1)LLMと3Dレンダラーを統合するパイプラインを提案し、LLMSをアクションデザイナーとして使用して、EHMISを制御し、アクションクリップをレンダリングするための実行可能アクションを生成します。
(2)8つの意図されたメッセージと4つの代表的なEHMIモダリティに対して合計320のアクションシーケンスを含むユーザー定格のアクションデザインスコアセットを収集します。
データセットは、LLMSが意図したメッセージを人間レベルに近いアクションに変換できることを検証します。
(3)18 LLMのベンチマークを行うために、アクションリファレンススコア(ARS)とビジョン言語モデル(VLMS)の2つの自動評価者を導入し、VLMが人間の好みに合わせているが、EHMIモダリティによって異なることを発見します。

要約(オリジナル)

The absence of explicit communication channels between automated vehicles (AVs) and other road users requires the use of external Human-Machine Interfaces (eHMIs) to convey messages effectively in uncertain scenarios. Currently, most eHMI studies employ predefined text messages and manually designed actions to perform these messages, which limits the real-world deployment of eHMIs, where adaptability in dynamic scenarios is essential. Given the generalizability and versatility of large language models (LLMs), they could potentially serve as automated action designers for the message-action design task. To validate this idea, we make three contributions: (1) We propose a pipeline that integrates LLMs and 3D renderers, using LLMs as action designers to generate executable actions for controlling eHMIs and rendering action clips. (2) We collect a user-rated Action-Design Scoring dataset comprising a total of 320 action sequences for eight intended messages and four representative eHMI modalities. The dataset validates that LLMs can translate intended messages into actions close to a human level, particularly for reasoning-enabled LLMs. (3) We introduce two automated raters, Action Reference Score (ARS) and Vision-Language Models (VLMs), to benchmark 18 LLMs, finding that the VLM aligns with human preferences yet varies across eHMI modalities.

arxiv情報

著者 Ding Xia,Xinyue Gui,Fan Gao,Dongyuan Li,Mark Colley,Takeo Igarashi
発行日 2025-05-27 04:37:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.HC, cs.RO パーマリンク