Applying General Turn-taking Models to Conversational Human-Robot Interaction


交代は会話の基本的な側面ですが、現在のヒューマン ロボット インタラクション (HRI) システムは単純化された沈黙ベースのモデルに依存していることが多く、不自然な休止や中断が発生します。
この論文では、HRI における会話ダイナミクスを改善するための、一般的なターンテイキング モデル、特に TurnGPT と音声アクティビティ投影 (VAP) のアプリケーションを初めて調査します。
私たちは、自律応答生成のための大規模な言語モデルと組み合わせて、会話環境で成人 39 人とフルハット ロボットを使用して、従来のベースライン システムに対して被験者内研究で提案されたシステムを評価しました。


Turn-taking is a fundamental aspect of conversation, but current Human-Robot Interaction (HRI) systems often rely on simplistic, silence-based models, leading to unnatural pauses and interruptions. This paper investigates, for the first time, the application of general turn-taking models, specifically TurnGPT and Voice Activity Projection (VAP), to improve conversational dynamics in HRI. These models are trained on human-human dialogue data using self-supervised learning objectives, without requiring domain-specific fine-tuning. We propose methods for using these models in tandem to predict when a robot should begin preparing responses, take turns, and handle potential interruptions. We evaluated the proposed system in a within-subject study against a traditional baseline system, using the Furhat robot with 39 adults in a conversational setting, in combination with a large language model for autonomous response generation. The results show that participants significantly prefer the proposed system, and it significantly reduces response delays and interruptions.


著者 Gabriel Skantze,Bahar Irfan
発行日 2025-01-15 16:49:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, Google

カテゴリー: cs.CL, cs.RO パーマリンク