A bounded rationality account of dependency length minimization in Hindi

要約

タイトル:ヒンディー語における依存長さ最小化の有界合理性アカウント

要約:

– 依存長さ最小化は、文法的に関連する単語を文章内で近くに保つことを目的としており、効果的なコミュニケーションのために人間言語の構造を普遍的に形成すると考えられています。
– しかし、人間言語システムにおいて依存長さ最小化がどの程度適用されているかはまだ完全に理解されていません。
– これらの研究では、前置された長い構成要素の後に短い構成要素を配置する前補語的表現と、後置された短い構成要素の後に長い構成要素を配置する後補語的表現が、文章の依存長さを最小限に抑えることが知られています。
– この研究では、最短の前置語を主語と動詞の間に配置することで、ヒンディー語(SOV言語)の単語順序の傾向を、依存長さのグローバル最小化とは異なる方法で説明する仮説を検証しました。
– このアプローチを、コスト効果の高い依存関係全体を短縮する方法として、最小限の努力戦略として特徴付けています。
– そのため、このアプローチは、最適解を探すのではなく、「速くて賢い」ヒューリスティックによって意思決定が支配される有界合理性の観点から一致しています。
– これに合わせて、研究結果は、ヒンディー語ウルドゥー語ツリーバンクコーパス内の実際の文章が、依存長さのグローバル最小化よりも最小限の努力戦略でより良く説明されることを示しています。
– さらに、コーパス内の文と架空の変形文を区別するタスクにおいて、主要な動詞に最も近い構成要素の依存長さと構成要素の長さが、文がコーパス内に現れたかどうかを予測するのに優れていることがわかりました。
– 全体として、研究成果は、認知資源制約が自然言語を形成する上で重要な役割を担っていることを示唆しています。

要約(オリジナル)

The principle of DEPENDENCY LENGTH MINIMIZATION, which seeks to keep syntactically related words close in a sentence, is thought to universally shape the structure of human languages for effective communication. However, the extent to which dependency length minimization is applied in human language systems is not yet fully understood. Preverbally, the placement of long-before-short constituents and postverbally, short-before-long constituents are known to minimize overall dependency length of a sentence. In this study, we test the hypothesis that placing only the shortest preverbal constituent next to the main-verb explains word order preferences in Hindi (a SOV language) as opposed to the global minimization of dependency length. We characterize this approach as a least-effort strategy because it is a cost-effective way to shorten all dependencies between the verb and its preverbal dependencies. As such, this approach is consistent with the bounded-rationality perspective according to which decision making is governed by ‘fast but frugal’ heuristics rather than by a search for optimal solutions. Consistent with this idea, our results indicate that actual corpus sentences in the Hindi-Urdu Treebank corpus are better explained by the least effort strategy than by global minimization of dependency lengths. Additionally, for the task of distinguishing corpus sentences from counterfactual variants, we find that the dependency length and constituent length of the constituent closest to the main verb are much better predictors of whether a sentence appeared in the corpus than total dependency length. Overall, our findings suggest that cognitive resource constraints play a crucial role in shaping natural languages.

arxiv情報

著者 Sidharth Ranjan,Titus von der Malsburg
発行日 2023-04-22 13:53:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CL, econ.TH パーマリンク