要約
日常業務で人間を支援する場合、ロボットは視覚的な合図を正確に解釈し、床上の鋭利な物体など安全性が重要なさまざまな状況に効果的に対応する必要があります。
これに関連して、安全性が重要な状況で実体エージェントがよりよく理解し、コミュニケーションできるように特別に設計されたマルチモーダル対話システムである M-CoDAL を紹介します。
このシステムは、談話の一貫性関係を活用して、文脈の理解とコミュニケーション能力を強化します。
このシステムをトレーニングするために、外部の大規模言語モデル (LLM) を利用して有益なインスタンスを識別する新しいクラスタリング ベースのアクティブ ラーニング メカニズムを導入します。
私たちのアプローチは、2K Reddit 画像から抽出された 1K の安全違反を含む新しく作成されたマルチモーダル データセットを使用して評価されます。
これらの違反には、Large Multimodal Model (LMM) を使用して注釈が付けられ、人間のアノテーターによって検証されます。
このデータセットの結果は、私たちのアプローチが安全状況の解決、ユーザーの感情、会話の安全性を向上させることを示しています。
次に、Hello Robot Strech ロボットに対話システムを展開し、現実世界の参加者を対象に被験者内ユーザー調査を実施します。
この研究では、参加者はロボットを使用して、深刻度の異なる 2 つの安全シナリオをロールプレイし、私たちのモデルと OpenAI の ChatGPT を活用したベースライン システムからの介入を受けます。
研究結果は、自動化された評価からの結果を裏付け、拡張し、私たちが提案したシステムが現実世界の身体化されたエージェント設定においてより説得力があり有能であることを示しています。
要約(オリジナル)
When assisting people in daily tasks, robots need to accurately interpret visual cues and respond effectively in diverse safety-critical situations, such as sharp objects on the floor. In this context, we present M-CoDAL, a multimodal-dialogue system specifically designed for embodied agents to better understand and communicate in safety-critical situations. The system leverages discourse coherence relations to enhance its contextual understanding and communication abilities. To train this system, we introduce a novel clustering-based active learning mechanism that utilizes an external Large Language Model (LLM) to identify informative instances. Our approach is evaluated using a newly created multimodal dataset comprising 1K safety violations extracted from 2K Reddit images. These violations are annotated using a Large Multimodal Model (LMM) and verified by human annotators. Results with this dataset demonstrate that our approach improves resolution of safety situations, user sentiment, as well as safety of the conversation. Next, we deploy our dialogue system on a Hello Robot Stretch robot and conduct a within-subject user study with real-world participants. In the study, participants role-play two safety scenarios with different levels of severity with the robot and receive interventions from our model and a baseline system powered by OpenAI’s ChatGPT. The study results corroborate and extend the findings from automated evaluation, showing that our proposed system is more persuasive and competent in a real-world embodied agent setting.
arxiv情報
著者 | Sabit Hassan,Hye-Young Chung,Xiang Zhi Tan,Malihe Alikhani |
発行日 | 2024-10-18 03:26:06+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google