No More Mumbles: Enhancing Robot Intelligibility through Speech Adaptation

要約

音声による相互作用は対人コミュニケーションの中心であり、人々は異なる個人や環境に柔軟に音声を適応させます。
驚くべきことに、ロボット、ひいては他のデジタル デバイスには音声を適応させる機能が備わっておらず、固定音声パラメータに依存しているため、ユーザーの理解が妨げられることがよくあります。
私たちは、さまざまな環境および文脈条件にさらされた 39 人の参加者を対象に、音声理解に関する研究を実施しました。
実験中、ロボットはさまざまな音声パラメータを使用して言葉を発声し、参加者は話された言葉を認識することと、ロボットの音声に対する主観的な印象を評価することの両方を課題としました。
実験の主な結果は、音響品質の良い空間が明瞭度とユーザー エクスペリエンスと正の相関関係があることを示しています。
しかし、ユーザーとロボット間の距離が離れるとユーザー エクスペリエンスが悪化する一方、気が散る背景音が音声認識の精度とユーザーの満足度を大幅に低下させます。
次に、ロボットの適応音声を構築しました。
このために、ロボットは、特定の環境でユーザーが話し言葉を理解することがどれほど難しいかを知る必要があります。
私たちは、周囲の音響環境がどれほど迷惑であるかを評価し、その結果、この環境で誰かを理解することがどれほど難しいかを評価する予測モデルを提示します。
次に、明瞭度に対する周囲音響の影響を考慮しながら、ロボットの音声パラメータをさまざまなユーザーや空間に適応させるための畳み込みニューラル ネットワーク モデルを開発します。
最後に、27 人のユーザーによる評価を紹介します。これは、固定音声と比較して、適応音声パラメーターによる優れた明瞭さとユーザー エクスペリエンスを示しています。

要約(オリジナル)

Spoken language interaction is at the heart of interpersonal communication, and people flexibly adapt their speech to different individuals and environments. It is surprising that robots, and by extension other digital devices, are not equipped to adapt their speech and instead rely on fixed speech parameters, which often hinder comprehension by the user. We conducted a speech comprehension study involving 39 participants who were exposed to different environmental and contextual conditions. During the experiment, the robot articulated words using different vocal parameters, and the participants were tasked with both recognising the spoken words and rating their subjective impression of the robot’s speech. The experiment’s primary outcome shows that spaces with good acoustic quality positively correlate with intelligibility and user experience. However, increasing the distance between the user and the robot exacerbated the user experience, while distracting background sounds significantly reduced speech recognition accuracy and user satisfaction. We next built an adaptive voice for the robot. For this, the robot needs to know how difficult it is for a user to understand spoken language in a particular setting. We present a prediction model that rates how annoying the ambient acoustic environment is and, consequentially, how hard it is to understand someone in this setting. Then, we develop a convolutional neural network model to adapt the robot’s speech parameters to different users and spaces, while taking into account the influence of ambient acoustics on intelligibility. Finally, we present an evaluation with 27 users, demonstrating superior intelligibility and user experience with adaptive voice parameters compared to fixed voice.

arxiv情報

著者 Qiaoqiao Ren,Yuanbo Hou,Dick Botteldooren,Tony Belpaeme
発行日 2024-05-15 21:28:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO, stat.CO パーマリンク