Evaluating Speech-in-Speech Perception via a Humanoid Robot

要約

背景の話者によって隠蔽される音声知覚の根本的なメカニズム、つまり日常の一般的なリスニング条件は、さまざまで長時間にわたる心理物理学的テストを使用して調査されることがよくあります。
インタラクティブなヒューマノイド NAO ロボットなどのソーシャル エージェントの存在は、関与と注意を維持するのに役立つ可能性があります。
ただし、このようなロボットの音質や処理速度には限界がある可能性があります。
音声認識の精神物理学的テストにおける NAO の使用に向けた最初のステップとして、標準的なコンピュータ インターフェイスを使用した場合の正常聴力の若者のパフォーマンスを、テストを導入し、対応するすべてのテストを提示するために NAO ロボットを使用した場合のパフォーマンスと比較しました。
刺激。
ターゲット文は、さまざまなターゲット対マスカー比で競合するマスカー音声の存在下で、色と数字のキーワードで提示されました。
文は同じ話者によって生成されましたが、ターゲットとマスカーの間の音声の違いは音声合成手法を使用して導入されました。
テストのパフォーマンス、音声明瞭度、データ収集時間を評価するために、コンピューターと NAO のセットアップ間で比較しました。
人間とロボットの相互作用は、ロボットに対する否定的な態度スケール (NARS) と行動の合図 (バックチャネル) の定量化を使用して評価されました。
音声明瞭度の結果は、コンピュータと NAO のセットアップの間で機能的な類似性を示しました。
NAO を使用すると、データ収集時間が長くなりました。
NARS の結果は、参加者が NAO と対話する前にロボットに対してより積極的な態度を示していたことを示しました。
NAO を使用する場合、よりポジティブなバックチャネルが存在することは、コンピューターと比較してロボットとの関与が高いことを示唆しています。
全体として、この研究は、音声素材を提示し、音声中音声知覚に関する心理物理学的測定値を収集するための NAO の可能性を示しています。

要約(オリジナル)

Underlying mechanisms of speech perception masked by background speakers, a common daily listening condition, are often investigated using various and lengthy psychophysical tests. The presence of a social agent, such as an interactive humanoid NAO robot, may help maintain engagement and attention. However, such robots potentially have limited sound quality or processing speed. As a first step towards the use of NAO in psychophysical testing of speech-in-speech perception, we compared normal-hearing young adults’ performance when using the standard computer interface to that when using a NAO robot to introduce the test and present all corresponding stimuli. Target sentences were presented with colour and number keywords in the presence of competing masker speech at varying target-to-masker ratios. Sentences were produced by the same speaker, but voice differences between the target and masker were introduced using speech synthesis methods. To assess test performance, speech intelligibility and data collection duration were compared between the computer and NAO setups. Human-robot interaction was assessed using the Negative Attitude Towards Robot Scale (NARS) and quantification of behavioural cues (backchannels). Speech intelligibility results showed functional similarity between the computer and NAO setups. Data collection durations were longer when using NAO. NARS results showed participants had a more positive attitude toward robots prior to their interaction with NAO. The presence of more positive backchannels when using NAO suggest higher engagement with the robot in comparison to the computer. Overall, the study presents the potential of the NAO for presentingspeech materials and collecting psychophysical measurements for speech-in-speech perception.

arxiv情報

著者 Luke Meyer,Gloria Araiza-Illan,Laura Rachman,Etienne Gaudrain,Deniz Baskent
発行日 2023-12-19 15:46:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO, cs.SD, eess.AS パーマリンク