要約
毎日のタスクで人々を支援するとき、ロボットは視覚的な手がかりを正確に解釈し、床の鋭いオブジェクトなどの多様な安全性のある状況で効果的に対応する必要があります。
これに関連して、具体化されたエージェントが安全性が批判的な状況でよりよく理解し、通信するように特別に設計されたマルチモーダルダイアログシステムであるM-Codalを提示します。
このシステムは、談話の一貫性関係を活用して、その文脈上の理解とコミュニケーション能力を高めます。
このシステムをトレーニングするために、外部の大手言語モデル(LLM)を利用して有益なインスタンスを特定する新しいクラスタリングベースのアクティブ学習メカニズムを導入します。
私たちのアプローチは、2K Reddit画像から抽出された1K安全違反で構成される新しく作成されたマルチモーダルデータセットを使用して評価されます。
これらの違反は、大規模なマルチモーダルモデル(LMM)を使用して注釈が付けられ、ヒトのアノテーターによって検証されます。
このデータセットの結果は、私たちのアプローチが安全状況、ユーザー感情、および会話の安全性の解決を改善することを示しています。
次に、ハローロボットストレッチロボットにダイアログシステムを展開し、現実世界の参加者と被験者内ユーザー調査を実施します。
この研究では、参加者はロボットとの重大度が異なる2つの安全シナリオをロールプレイし、モデルから介入を受け取り、OpenaiのChatGPTを搭載したベースラインシステムを受け取ります。
この研究結果は、調査結果を自動化された評価から裏付け、拡張し、提案されたシステムが実際の具体化されたエージェント設定でより説得力があることを示しています。
要約(オリジナル)
When assisting people in daily tasks, robots need to accurately interpret visual cues and respond effectively in diverse safety-critical situations, such as sharp objects on the floor. In this context, we present M-CoDAL, a multimodal-dialogue system specifically designed for embodied agents to better understand and communicate in safety-critical situations. The system leverages discourse coherence relations to enhance its contextual understanding and communication abilities. To train this system, we introduce a novel clustering-based active learning mechanism that utilizes an external Large Language Model (LLM) to identify informative instances. Our approach is evaluated using a newly created multimodal dataset comprising 1K safety violations extracted from 2K Reddit images. These violations are annotated using a Large Multimodal Model (LMM) and verified by human annotators. Results with this dataset demonstrate that our approach improves resolution of safety situations, user sentiment, as well as safety of the conversation. Next, we deploy our dialogue system on a Hello Robot Stretch robot and conduct a within-subject user study with real-world participants. In the study, participants role-play two safety scenarios with different levels of severity with the robot and receive interventions from our model and a baseline system powered by OpenAI’s ChatGPT. The study results corroborate and extend the findings from the automated evaluation, showing that our proposed system is more persuasive in a real-world embodied agent setting.
arxiv情報
著者 | Sabit Hassan,Hye-Young Chung,Xiang Zhi Tan,Malihe Alikhani |
発行日 | 2025-02-25 15:13:08+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google