要約
我々は、ロボットと人間のプロアクティブな対話のための新しいタスク生成および実行フレームワークである AToM-Bot を提案します。これは、感情理論 (AToM) によって促進される視覚言語モデル (VLM) の人間の精神的および身体的状態の推論機能を活用します。
人間による明示的なコマンドを必要とせずに、AToM-Bot は実行可能なタスクを積極的に生成して実行し、一般的な人間の幸福を向上させます。
人間の周囲にいる場合、AToM-Bot はまず、推定された人間の状態と周囲の環境の観察に基づいて、人間の現在のニーズを検出します。
次に、具体化された制約を考慮して、これらのニーズを満たすタスクを生成します。
私たちは 4 つの一般的なシーンにわたる 16 の日常生活シナリオを設計し、59 人の被験者とロボットに同じ視覚刺激を与えました。
人間の自由回答とロボットの出力との類似性、およびロボットのパフォーマンスを測定するために人間の満足度スコアを使用しました。
AToM-Bot は、ニーズの検出 (6.42/7、91.7%)、具現化されたソリューション (6.15/7、87.8%)、およびタスクの実行 (6.17/7、88.1%) において人間による高い評価を受けました。
私たちは、AToM-Bot が、人間の暗黙のニーズを満たすための実行可能な計画を生成し、実行することに優れていることを示します。
ビデオとコードは https://affective-tom-bot.github.io で入手できます。
要約(オリジナル)
We propose AToM-Bot, a novel task generation and execution framework for proactive robot-human interaction, which leverages the human mental and physical state inference capabilities of the Vision Language Model (VLM) prompted by the Affective Theory of Mind (AToM). Without requiring explicit commands by humans, AToM-Bot proactively generates and follows feasible tasks to improve general human well-being. When around humans, AToM-Bot first detects current human needs based on inferred human states and observations of the surrounding environment. It then generates tasks to fulfill these needs, taking into account its embodied constraints. We designed 16 daily life scenarios spanning 4 common scenes and tasked the same visual stimulus to 59 human subjects and our robot. We used the similarity between human open-ended answers and robot output, and the human satisfaction scores to metric robot performance. AToM-Bot received high human evaluations in need detection (6.42/7, 91.7%), embodied solution (6.15/7, 87.8%) and task execution (6.17/7, 88.1%). We show that AToM-Bot excels in generating and executing feasible plans to fulfill unspoken human needs. Videos and code are available at https://affective-tom-bot.github.io.
arxiv情報
著者 | Wei Ding,Fanhong Li,Ziteng Ji,Zhengrong Xue,Jia Liu |
発行日 | 2024-06-12 17:47:04+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google