Does Dependency Locality Predict Non-canonical Word Order in Hindi?

要約

これまでの研究では、オブジェクト前主語 (OSV) 順序の孤立した非正規文は、主語前オブジェクト (SOV) 順序の正規文に比べて最初は処理が難しいことが示されています。
この困難は適切な談話文脈によって軽減されますが、OSV 文の処理上の課題を軽減する根本的な認知要因については依然として疑問が残っています。
この研究では、特に所与性や意外性などの情報ステータスを制御する場合、依存関係の長さの最小化が非標準 (OSV) 構文の選択の重要な予測因子であるという仮説を検証します。
私たちは、明確に定義された主語と目的語を含む文をヒンディー語・ウルドゥー語ツリーバンク コーパス (HUTB) から抽出し、それらの文の前言語構成要素を体系的に並べ替え、元のコーパス文と人工的に生成された代替文を区別する分類器を導入します。
この分類子は、依存関係の長さ、意外性、情報ステータスなど、さまざまな談話ベースの認知機能を活用して、予測を通知します。
私たちの結果は、生成されたバリアントの中で非標準的なコーパス文の依存関係の長さを最小限に抑える傾向が存在するものの、この要素は意外性や所与性の尺度を超えてコーパス文の識別に大きく寄与しないことを示唆しています。
特に、談話の予測可能性は、構成要素の順序の好みの主な決定要因として現れます。
これらの発見は、44 人​​のヒンディー語母語話者を対象とした人による評価によってさらに裏付けられています。
全体として、この研究は語順の決定における期待値適応の役割に光を当てています。
私たちは結論として、私たちの結果を言説生成と情報の局所性の理論の中に位置付けます。

要約(オリジナル)

Previous work has shown that isolated non-canonical sentences with Object-before-Subject (OSV) order are initially harder to process than their canonical counterparts with Subject-before-Object (SOV) order. Although this difficulty diminishes with appropriate discourse context, the underlying cognitive factors responsible for alleviating processing challenges in OSV sentences remain a question. In this work, we test the hypothesis that dependency length minimization is a significant predictor of non-canonical (OSV) syntactic choices, especially when controlling for information status such as givenness and surprisal measures. We extract sentences from the Hindi-Urdu Treebank corpus (HUTB) that contain clearly-defined subjects and objects, systematically permute the preverbal constituents of those sentences, and deploy a classifier to distinguish between original corpus sentences and artificially generated alternatives. The classifier leverages various discourse-based and cognitive features, including dependency length, surprisal, and information status, to inform its predictions. Our results suggest that, although there exists a preference for minimizing dependency length in non-canonical corpus sentences amidst the generated variants, this factor does not significantly contribute in identifying corpus sentences above and beyond surprisal and givenness measures. Notably, discourse predictability emerges as the primary determinant of constituent-order preferences. These findings are further supported by human evaluations involving 44 native Hindi speakers. Overall, this work sheds light on the role of expectation adaptation in word-ordering decisions. We conclude by situating our results within the theories of discourse production and information locality.

arxiv情報

著者 Sidharth Ranjan,Marten van Schijndel
発行日 2024-05-13 13:24:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク