要約
音声は人間がロボットと対話するための自然なインターフェースです。
しかし、両方のモダリティの語彙が豊富であるため、ロボットの声をその外観に合わせるのは困難です。
これまでの研究では、ロボットを説明するためのいくつかのラベルを調査し、限られた数のロボットと既存の音声でそれらをテストしました。
ここでは、ロボット音声作成ツールを開発し、その後、大規模な人体行動実験を行います (N=2,505)。
まず、参加者は、適応型ヒューマンインザループ パイプラインを使用して、175 個のロボット画像に一致するようにロボットの音声を共同で調整します。
次に、参加者は、オープンエンドのラベル付けのための別の人間参加型パラダイムを使用して、ロボットまたは一致する声の印象を説明します。
導き出された分類法は、ロボットの属性を評価し、目に見えないロボットに最適な音声を予測するために使用されます。
当社は、エンジニアがロボットの音声をカスタマイズするのを支援する Web インターフェイスを提供し、エンジニアリング ツールの認知科学と機械学習の相乗効果を実証します。
要約(オリジナル)
Speech is a natural interface for humans to interact with robots. Yet, aligning a robot’s voice to its appearance is challenging due to the rich vocabulary of both modalities. Previous research has explored a few labels to describe robots and tested them on a limited number of robots and existing voices. Here, we develop a robot-voice creation tool followed by large-scale behavioral human experiments (N=2,505). First, participants collectively tune robotic voices to match 175 robot images using an adaptive human-in-the-loop pipeline. Then, participants describe their impression of the robot or their matched voice using another human-in-the-loop paradigm for open-ended labeling. The elicited taxonomy is then used to rate robot attributes and to predict the best voice for an unseen robot. We offer a web interface to aid engineers in customizing robot voices, demonstrating the synergy between cognitive science and machine learning for engineering tools.
arxiv情報
著者 | Pol van Rijn,Silvan Mertes,Kathrin Janowski,Katharina Weitz,Nori Jacoby,Elisabeth André |
発行日 | 2024-02-07 19:20:22+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google