BabySLM: language-acquisition-friendly benchmark of self-supervised spoken language models

要約

音声表現を学習するための自己教師技術は、人間のラベルを必要とせず、音声に触れることで言語能力を発達させることが示されている。このような手法の可能性を十分に引き出し、幼児がどのように言語を学習するのかについての理解を深めるためには、発達段階に応じたコーパスで学習し、適切なテストセットに対してベンチマークを行うことによって、シミュレーションが現実の状況を忠実に再現する必要があります。このため、我々は言語習得に適したベンチマークを提案し、音声言語モデルを語彙レベルおよび構文レベルで調査する。本論文では、このベンチマークを紹介し、その有用性を示す様々な実験結果を要約する。さらに、テキストと音声の間のギャップを埋めること、クリーンな音声と実際の音声の間のギャップを埋めることという、さらなる進歩のために取り組むべき2つのエキサイティングな課題についても言及する。

要約(オリジナル)

Self-supervised techniques for learning speech representations have been shown to develop linguistic competence from exposure to speech without the need for human labels. In order to fully realize the potential of these approaches and further our understanding of how infants learn language, simulations must closely emulate real-life situations by training on developmentally plausible corpora and benchmarking against appropriate test sets. To this end, we propose a language-acquisition-friendly benchmark to probe spoken language models at the lexical and syntactic levels, both of which are compatible with the vocabulary typical of children’s language experiences. This paper introduces the benchmark and summarizes a range of experiments showing its usefulness. In addition, we highlight two exciting challenges that need to be addressed for further progress: bridging the gap between text and speech and between clean speech and in-the-wild speech.

arxiv情報

著者 Marvin Lavechin,Yaya Sy,Hadrien Titeux,María Andrea Cruz Blandón,Okko Räsänen,Hervé Bredin,Emmanuel Dupoux,Alejandrina Cristia
発行日 2023-06-02 12:54:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL, eess.AS, stat.ML パーマリンク