Basic syntax from speech: Spontaneous concatenation in unsupervised deep neural networks

要約

構文の計算モデルは主にテキストベースです。
ここで、最も基本的な構文操作は、完全に教師なしの方法で生の音声から直接モデル化できることを提案します。
私たちは、構文の最も普遍的かつ基本的な特性の 1 つである連結に焦点を当てます。
自発的連結とは、個々の単語の音響録音で訓練された畳み込みニューラル ネットワーク (CNN) が、入力に複数の単語を含むデータにアクセスすることなく、2 つまたは 3 つの単語が連結された出力を生成し始める現象です。
この発見を、異なるハイパーパラメータとトレーニング データを使用して独立してトレーニングされたいくつかのモデルで再現しました。
さらに、2 つの単語でトレーニングされたネットワークは、新しい未観測の単語の組み合わせに単語を埋め込むことを学習します。
私たちの知る限り、これは生の音声に対して ciwGAN/fiwGAN 設定でトレーニングされた CNN のこれまで報告されていない特性であり、これらのアーキテクチャがどのように学習するかについての理解と、生の音響入力からの構文のモデリングとその進化の両方に影響を及ぼします。

要約(オリジナル)

Computational models of syntax are predominantly text-based. Here we propose that the most basic syntactic operations can be modeled directly from raw speech in a fully unsupervised way. We focus on one of the most ubiquitous and elementary properties of syntax — concatenation. We introduce spontaneous concatenation: a phenomenon where convolutional neural networks (CNNs) trained on acoustic recordings of individual words start generating outputs with two or even three words concatenated without ever accessing data with multiple words in the input. We replicate this finding in several independently trained models with different hyperparameters and training data. Additionally, networks trained on two words learn to embed words into novel unobserved word combinations. To our knowledge, this is a previously unreported property of CNNs trained in the ciwGAN/fiwGAN setting on raw speech and has implications both for our understanding of how these architectures learn as well as for modeling syntax and its evolution from raw acoustic inputs.

arxiv情報

著者 Gašper Beguš,Thomas Lu,Zili Wang
発行日 2024-07-12 10:30:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.SD, eess.AS パーマリンク