Basic syntax from speech: Spontaneous concatenation in unsupervised deep neural networks

要約

構文の計算モデルは主にテキストベースです。
ここで私たちは、構文の進化における最も基本的な最初のステップが、完全に教師なしの方法で生の音声から直接モデル化できることを提案します。
私たちは、構文の最も普遍的かつ基本的な部分操作の 1 つである連結に焦点を当てます。
自発的連結とは、個々の単語の音響録音で訓練された畳み込みニューラル ネットワーク (CNN) が、入力に複数の単語を含むデータにアクセスすることなく、2 つまたは 3 つの単語が連結された出力を生成し始める現象です。
この発見を、異なるハイパーパラメータとトレーニング データを使用して独立してトレーニングされたいくつかのモデルで再現しました。
さらに、2 つの単語でトレーニングされたネットワークは、新しい未観測の単語の組み合わせに単語を埋め込むことを学習します。
また、連結された出力には構成性の前駆体が含まれていることも示します。
私たちの知る限り、これは生の音声に対して ciwGAN/fiwGAN 設定でトレーニングされた CNN のこれまで報告されていない特性であり、これらのアーキテクチャがどのように学習するかについての理解と、生の音響入力からの構文のモデリングと脳内での進化の両方に影響を及ぼします。

また、脱抑制と呼ばれる潜在的な神経機構を提案します。これは、連結と構成性に向かう可能性のある神経経路を概説し、私たちのモデリングが音声の生物学的および人工的な神経処理のテスト可能な予測を生成するのに役立つことを示唆しています。

要約(オリジナル)

Computational models of syntax are predominantly text-based. Here we propose that the most basic first step in the evolution of syntax can be modeled directly from raw speech in a fully unsupervised way. We focus on one of the most ubiquitous and elementary suboperation of syntax — concatenation. We introduce spontaneous concatenation: a phenomenon where convolutional neural networks (CNNs) trained on acoustic recordings of individual words start generating outputs with two or even three words concatenated without ever accessing data with multiple words in the input. We replicate this finding in several independently trained models with different hyperparameters and training data. Additionally, networks trained on two words learn to embed words into novel unobserved word combinations. We also show that the concatenated outputs contain precursors to compositionality. To our knowledge, this is a previously unreported property of CNNs trained in the ciwGAN/fiwGAN setting on raw speech and has implications both for our understanding of how these architectures learn as well as for modeling syntax and its evolution in the brain from raw acoustic inputs. We also propose a potential neural mechanism called disinhibition that outlines a possible neural pathway towards concatenation and compositionality and suggests our modeling is useful for generating testable prediction for biological and artificial neural processing of speech.

arxiv情報

著者 Gašper Beguš,Thomas Lu,Zili Wang
発行日 2024-11-20 18:30:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.SD, eess.AS パーマリンク