Linguistic Structure from a Bottleneck on Sequential Information Processing

要約

人間の言語は自然界における独特のコミュニケーション形式であり、その構造的な性質によって特徴付けられます。
最も基本的には、信号が体系的であるということです。これは、信号を個別に意味のある構成要素 (大まかに単語) に分解し、それらが規則的な方法で結合されて文を形成できることを意味します。
さらに、これらの部分を組み合わせる方法には、一種の局所性が維持されます。通常、単語は互いに連結され、連続したフレーズを形成し、文の関連する部分が互いに近くに保たれます。
私たちは、言語のこれらの基本的な特性が、情報処理の制約の下での効率的なコミュニケーションのより広範な原則からどのように生じるかを理解するという課題に取り組みます。
今回我々は、自然言語のような系統性が、過去に基づいてシーケンスの将来を予測するために必要な最小限の情報量を表す統計的複雑さの尺度である過剰エントロピーの最小化から生じることを示す。
シミュレーションでは、過剰エントロピーを最小限に抑えるコードがソース分布をほぼ独立した成分に因数分解し、それらの成分を体系的かつ局所的に表現することを示します。
次に、一連の大規模な言語横断的なコーパス研究で、人間の言語は音韻論、形態論、構文、意味論のレベルで過剰エントロピーが低くなるように構造化されていることを示します。
私たちの結果は、人間の言語が、表現する必要のある意味の統計的分布に関して独立成分分析の逐次一般化を実行していることを示唆しています。
これは、人間の言語の統計的構造と代数的構造の間の関連性を確立し、人間の言語の構造は、コミュニケーションの表現力を最大化しながら認知負荷を最小限に抑えるように進化した可能性があるという考えを強化します。

要約(オリジナル)

Human language is a unique form of communication in the natural world, distinguished by its structured nature. Most fundamentally, it is systematic, meaning that signals can be broken down into component parts that are individually meaningful — roughly, words — which are combined in a regular way to form sentences. Furthermore, the way in which these parts are combined maintains a kind of locality: words are usually concatenated together, and they form contiguous phrases, keeping related parts of sentences close to each other. We address the challenge of understanding how these basic properties of language arise from broader principles of efficient communication under information processing constraints. Here we show that natural-language-like systematicity arises from minimization of excess entropy, a measure of statistical complexity that represents the minimum amount of information necessary for predicting the future of a sequence based on its past. In simulations, we show that codes that minimize excess entropy factorize their source distributions into approximately independent components, and then express those components systematically and locally. Next, in a series of massively cross-linguistic corpus studies, we show that human languages are structured to have low excess entropy at the level of phonology, morphology, syntax, and semantics. Our result suggests that human language performs a sequential generalization of Independent Components Analysis on the statistical distribution over meanings that need to be expressed. It establishes a link between the statistical and algebraic structure of human language, and reinforces the idea that the structure of human language may have evolved to minimize cognitive load while maximizing communicative expressiveness.

arxiv情報

著者 Richard Futrell,Michael Hahn
発行日 2024-05-20 15:25:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.IT, math.IT パーマリンク