ProsAudit, a prosodic benchmark for self-supervised speech models

要約

ProsAudit は、自己教師あり学習 (SSL) 音声モデルの構造韻律知識を評価するための英語のベンチマークです。
これは、2 つのサブタスク、対応するメトリック、評価データセットで構成されます。
プロトシンタックス タスクでは、モデルは強い韻律境界と弱い韻律境界を正しく識別しなければなりません。
字句タスクでは、モデルは単語間と単語内に挿入された一時停止を正しく区別する必要があります。
このベンチマークでは、人間による評価スコアも提供しています。
一連の SSL モデルを評価したところ、目に見えない言語でトレーニングした場合でも、すべてのモデルが両方のタスクで可能性を超えて実行できることがわかりました。
ただし、非ネイティブ モデルは語彙タスクでネイティブ モデルよりも大幅にパフォーマンスが低下し、このタスクにおける語彙知識の重要性が強調されました。
また、2 つのサブタスクでより多くのデータを使用してトレーニングされたモデルで、サイズの明確な効果が見られました。

要約(オリジナル)

We present ProsAudit, a benchmark in English to assess structural prosodic knowledge in self-supervised learning (SSL) speech models. It consists of two subtasks, their corresponding metrics, an evaluation dataset. In the protosyntax task, the model must correctly identify strong versus weak prosodic boundaries. In the lexical task, the model needs to correctly distinguish between pauses inserted between words and within words. We also provide human evaluation scores on this benchmark. We evaluated a series of SSL models and found that they were all able to perform above chance on both tasks, even when trained on an unseen language. However, non-native models performed significantly worse than native ones on the lexical task, highlighting the importance of lexical knowledge in this task. We also found a clear effect of size with models trained on more data performing better in the two subtasks.

arxiv情報

著者 Maureen de Seyssel,Marvin Lavechin,Hadrien Titeux,Arthur Thomas,Gwendal Virlet,Andrea Santos Revilla,Guillaume Wisniewski,Bogdan Ludusan,Emmanuel Dupoux
発行日 2023-02-23 14:30:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.SD, eess.AS パーマリンク