要約
交代は会話の基本的な側面ですが、現在のヒューマン ロボット インタラクション (HRI) システムは単純化された沈黙ベースのモデルに依存していることが多く、不自然な休止や中断が発生します。
この論文では、HRI における会話ダイナミクスを改善するための、一般的なターンテイキング モデル、特に TurnGPT と音声アクティビティ投影 (VAP) のアプリケーションを初めて調査します。
これらのモデルは、ドメイン固有の微調整を必要とせず、自己教師あり学習目標を使用して人間間の対話データでトレーニングされます。
これらのモデルを連携して使用して、ロボットがいつ応答の準備を開始し、交代し、潜在的な中断に対処すべきかを予測する方法を提案します。
私たちは、自律応答生成のための大規模な言語モデルと組み合わせて、会話環境で成人 39 人とフルハット ロボットを使用して、従来のベースライン システムに対して被験者内研究で提案されたシステムを評価しました。
結果は、参加者が提案されたシステムを大幅に好み、応答の遅延や中断が大幅に減少することを示しています。
要約(オリジナル)
Turn-taking is a fundamental aspect of conversation, but current Human-Robot Interaction (HRI) systems often rely on simplistic, silence-based models, leading to unnatural pauses and interruptions. This paper investigates, for the first time, the application of general turn-taking models, specifically TurnGPT and Voice Activity Projection (VAP), to improve conversational dynamics in HRI. These models are trained on human-human dialogue data using self-supervised learning objectives, without requiring domain-specific fine-tuning. We propose methods for using these models in tandem to predict when a robot should begin preparing responses, take turns, and handle potential interruptions. We evaluated the proposed system in a within-subject study against a traditional baseline system, using the Furhat robot with 39 adults in a conversational setting, in combination with a large language model for autonomous response generation. The results show that participants significantly prefer the proposed system, and it significantly reduces response delays and interruptions.
arxiv情報
著者 | Gabriel Skantze,Bahar Irfan |
発行日 | 2025-01-15 16:49:22+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google