要約
音声による指示は、エージェントのコラボレーションにおいて広く普及しています。
ただし、人間とロボットのコラボレーションでは、人間の音声の認識精度は、背景雑音、話者のアクセント、発音の誤りなど、さまざまな音声および環境要因によって影響を受けることがよくあります。
騒々しい、またはなじみのない聴覚入力に直面したとき、人間は文脈と事前の知識を使用して刺激を曖昧にし、実際的な行動をとります。このプロセスは、認知科学ではトップダウン処理と呼ばれます。
我々は、認知にインスピレーションを得たモデルである心の理論による音声命令フォローイング(SIFToM)を提案します。これにより、音声の知覚と理解について以前と同様に人間の目標と共同計画を推測することにより、ロボットがさまざまな音声条件下で人間の指示に実際的に従うことができます。
模擬家庭実験 (VirtualHome 2) で SIFToM をテストします。
結果は、SIFToM モデルが最先端の音声および言語モデルを上回っており、タスクに続く困難な音声指導において人間レベルの精度に近づいていることを示しています。
次に、朝食準備タスク用の移動式マニピュレーターのタスク計画レベルでのその能力を実証します。
要約(オリジナル)
Spoken language instructions are ubiquitous in agent collaboration. However, in human-robot collaboration, recognition accuracy for human speech is often influenced by various speech and environmental factors, such as background noise, the speaker’s accents, and mispronunciation. When faced with noisy or unfamiliar auditory inputs, humans use context and prior knowledge to disambiguate the stimulus and take pragmatic actions, a process referred to as top-down processing in cognitive science. We present a cognitively inspired model, Speech Instruction Following through Theory of Mind (SIFToM), to enable robots to pragmatically follow human instructions under diverse speech conditions by inferring the human’s goal and joint plan as prior for speech perception and understanding. We test SIFToM in simulated home experiments (VirtualHome 2). Results show that the SIFToM model outperforms state-of-the-art speech and language models, approaching human-level accuracy on challenging speech instruction following tasks. We then demonstrate its ability at the task planning level on a mobile manipulator for breakfast preparation tasks.
arxiv情報
著者 | Lance Ying,Jason Xinyu Liu,Shivam Aarya,Yizirui Fang,Stefanie Tellex,Joshua B. Tenenbaum,Tianmin Shu |
発行日 | 2024-09-17 02:36:10+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google