BabySLM: language-acquisition-friendly benchmark of self-supervised spoken language models

要約

音声表現を学習するための自己教師ありの技術は、人間によるラベルを必要とせずに音声に触れることによって言語能力を発達させることが示されています。
これらのアプローチの可能性を十分に認識し、幼児が言語を学習する方法についての理解をさらに進めるために、シミュレーションは、発達上もっともらしいコーパスでトレーニングし、適切なテストセットに対してベンチマークを行うことにより、現実の状況を厳密にエミュレートする必要があります。
この目的を達成するために、我々は、語彙レベルと構文レベルで話し言葉モデルを調査するための、言語習得に適したベンチマークを提案します。これらのモデルはどちらも、子供の言語経験に典型的な語彙と互換性があります。
このペーパーでは、ベンチマークを紹介し、その有用性を示すさまざまな実験を要約します。
さらに、さらなる進歩のために取り組む必要がある 2 つの刺激的な課題を強調します。それは、テキストと音声の間、およびクリーンな音声と自然な音声の間のギャップを埋めることです。

要約(オリジナル)

Self-supervised techniques for learning speech representations have been shown to develop linguistic competence from exposure to speech without the need for human labels. In order to fully realize the potential of these approaches and further our understanding of how infants learn language, simulations must closely emulate real-life situations by training on developmentally plausible corpora and benchmarking against appropriate test sets. To this end, we propose a language-acquisition-friendly benchmark to probe spoken language models at the lexical and syntactic levels, both of which are compatible with the vocabulary typical of children’s language experiences. This paper introduces the benchmark and summarizes a range of experiments showing its usefulness. In addition, we highlight two exciting challenges that need to be addressed for further progress: bridging the gap between text and speech and between clean speech and in-the-wild speech.

arxiv情報

著者 Marvin Lavechin,Yaya Sy,Hadrien Titeux,María Andrea Cruz Blandón,Okko Räsänen,Hervé Bredin,Emmanuel Dupoux,Alejandrina Cristia
発行日 2023-06-08 12:22:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, eess.AS, stat.ML パーマリンク