Non-verbal information in spontaneous speech — towards a new framework of analysis

要約

音声内の非言語信号は韻律によってエンコードされ、会話の動作から態度、感情に至るまでの情報を伝えます。
その重要性にもかかわらず、韻律構造を支配する原則はまだ十分に理解されていません。
この論文は、韻律信号の分類と意味との関連付けに関する分析スキーマと技術的な概念実証を提供します。
スキーマは、多層の韻律イベントの表面表現を解釈します。
実装に向けた最初のステップとして、3 次の韻律現象を解きほぐす分類プロセスを紹介します。
これは、事前トレーニングされた音声認識モデルの微調整に依存しており、複数クラス/複数ラベルの同時検出を可能にします。
多種多様な自発的データを一般化して、人間によるアノテーションと同等かそれ以上のパフォーマンスを発揮します。
韻律の標準化された形式化に加えて、韻律パターンのもつれを解くことで、コミュニケーションと音声の組織化の理論を方向付けることができます。
歓迎すべき副産物は、音声および言語関連テクノロジーを強化する韻律の解釈です。

要約(オリジナル)

Non-verbal signals in speech are encoded by prosody and carry information that ranges from conversation action to attitude and emotion. Despite its importance, the principles that govern prosodic structure are not yet adequately understood. This paper offers an analytical schema and a technological proof-of-concept for the categorization of prosodic signals and their association with meaning. The schema interprets surface-representations of multi-layered prosodic events. As a first step towards implementation, we present a classification process that disentangles prosodic phenomena of three orders. It relies on fine-tuning a pre-trained speech recognition model, enabling the simultaneous multi-class/multi-label detection. It generalizes over a large variety of spontaneous data, performing on a par with, or superior to, human annotation. In addition to a standardized formalization of prosody, disentangling prosodic patterns can direct a theory of communication and speech organization. A welcome by-product is an interpretation of prosody that will enhance speech- and language-related technologies.

arxiv情報

著者 Tirza Biron,Moshe Barboy,Eran Ben-Artzy,Alona Golubchik,Yanir Marmor,Smadar Szekely,Yaron Winter,David Harel
発行日 2024-03-13 09:50:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG, cs.SD, eess.AS パーマリンク