要約
理論言語学者は、一部の言語 (中国語や日本語など) は他の言語よりも「クール」であると示唆しています。これは、これらの言語のフレーズの意図された意味が文脈に依存するという観察に基づいています。
その結果、これらの言語の多くの表現は短縮され、その意味は文脈から推測されます。
この論文では、中国語の名詞句 (NP) における複数性および限定性マーカーの省略に焦点を当て、文脈を考慮した場合の意図された意味の予測可能性を調査します。
この目的を達成するために、我々は中国語の NP のコーパスを構築しました。各 NP には、対応するコンテキストと、その単数性/複数性および明確性/不定性を示すラベルが付いています。
コーパスの評価と分析を実施しました。
この結果は、中国語話者が実際に複数性と明確性のマーカーを非常に頻繁に落とすことを示唆しています。
コーパスに基づいて、古典的な機械学習モデルと最先端の事前トレーニング済み言語モデルの両方を使用して一連の計算モデルをトレーニングし、各 NP の複数性と明確性を予測します。
これらのモデルのパフォーマンスを報告し、その動作を分析します。
要約(オリジナル)
Theoretical linguists have suggested that some languages (e.g., Chinese and Japanese) are ‘cooler’ than other languages based on the observation that the intended meaning of phrases in these languages depends more on their contexts. As a result, many expressions in these languages are shortened, and their meaning is inferred from the context. In this paper, we focus on the omission of the plurality and definiteness markers in Chinese noun phrases (NPs) to investigate the predictability of their intended meaning given the contexts. To this end, we built a corpus of Chinese NPs, each of which is accompanied by its corresponding context, and by labels indicating its singularity/plurality and definiteness/indefiniteness. We carried out corpus assessments and analyses. The results suggest that Chinese speakers indeed drop plurality and definiteness markers very frequently. Building on the corpus, we train a bank of computational models using both classic machine learning models and state-of-the-art pre-trained language models to predict the plurality and definiteness of each NP. We report on the performance of these models and analyse their behaviours.
arxiv情報
著者 | Yuqi Liu,Guanyi Chen,Kees van Deemter |
発行日 | 2024-03-07 10:06:54+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google