Representation of perceived prosodic similarity of conversational feedback

要約

ボーカルフィードバック(例:「MHM」、「ええ」、「大丈夫」)は、話し言葉の重要な要素であり、会話システムの共通点を確保するために重要です。
このようなフィードバックの正確な意味は、語彙と韻律の両方の形を介して伝えられます。
この作業では、同じ語彙形式のボーカルフィードバックの知覚された韻律類似性と、既存の音声表現がそのような類似性をどの程度反映しているかを調査します。
採用された参加者との三重比較タスクを使用して、2つの異なるデータセットから取得したフィードバック応答の知覚された類似性を測定します。
特に同じスピーカーからのフィードバックの場合、抽出されたピッチ機能よりもスペクトルと自己監視の音声表現が韻律をよりよくエンコードすることがわかります。
また、対照的な学習を通じて、表現を人間の知覚にさらに凝縮して整列させることが可能であることがわかります。

要約(オリジナル)

Vocal feedback (e.g., `mhm’, `yeah’, `okay’) is an important component of spoken dialogue and is crucial to ensuring common ground in conversational systems. The exact meaning of such feedback is conveyed through both lexical and prosodic form. In this work, we investigate the perceived prosodic similarity of vocal feedback with the same lexical form, and to what extent existing speech representations reflect such similarities. A triadic comparison task with recruited participants is used to measure perceived similarity of feedback responses taken from two different datasets. We find that spectral and self-supervised speech representations encode prosody better than extracted pitch features, especially in the case of feedback from the same speaker. We also find that it is possible to further condense and align the representations to human perception through contrastive learning.

arxiv情報

著者 Livia Qian,Carol Figueroa,Gabriel Skantze
発行日 2025-05-19 15:47:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク