Semantically Cohesive Word Grouping in Indian Languages

要約

インドの言語は屈折と膠着が多く、通常は節のない語順に従います。
依存関係解析ツリーを考慮すると、ほとんどの主要なインド言語の文の構造は類似しています。
解析構造の一部の違いは、言語の特殊性やその言語が好む自然な意味伝達方法によって発生しますが、いくつかの明らかな違いは単に文内の処理の最小意味単位の表現の粒度によるものです。
意味単位は通常、印刷上空白で区切られた単語です。
ある言語の空白で区切られた単一の単語が、別の言語の単語のグループに対応する場合があります。
したがって、意味論に基づいて単語をグループ化すると、複数の言語間で並列文の解析構造を統一し、その過程で形態学を統一するのに役立ちます。
この研究では、インド言語の文章の計算または言語処理における主要な前処理ステップとして単語のグループ化を提案します。
インドの言語の中でヒンディー語は最も膠着性が低い言語の 1 つであるため、単語グループ化から最も恩恵を受けることが期待されます。
したがって、この論文では、グループ化の効果を研究するためにヒンディー語に焦点を当てます。
我々は、単語をシャッフルすることで文を混乱させる内在的手法と、分解されたプロンプティングを使用した機械翻訳 (MT) のタスクにおける単語グループ化の重要性を検証する外部評価を使用して、提案の定量的評価を実行します。
また、文の構文構造の特定の側面も定性的に分析します。
私たちの実験と分析は、提案されたグループ化手法が構文構造に均一性をもたらし、基礎となる NLP タスクを支援することを示しています。

要約(オリジナル)

Indian languages are inflectional and agglutinative and typically follow clause-free word order. The structure of sentences across most major Indian languages are similar when their dependency parse trees are considered. While some differences in the parsing structure occur due to peculiarities of a language or its preferred natural way of conveying meaning, several apparent differences are simply due to the granularity of representation of the smallest semantic unit of processing in a sentence. The semantic unit is typically a word, typographically separated by whitespaces. A single whitespace-separated word in one language may correspond to a group of words in another. Hence, grouping of words based on semantics helps unify the parsing structure of parallel sentences across languages and, in the process, morphology. In this work, we propose word grouping as a major preprocessing step for any computational or linguistic processing of sentences for Indian languages. Among Indian languages, since Hindi is one of the least agglutinative, we expect it to benefit the most from word-grouping. Hence, in this paper, we focus on Hindi to study the effects of grouping. We perform quantitative assessment of our proposal with an intrinsic method that perturbs sentences by shuffling words as well as an extrinsic evaluation that verifies the importance of word grouping for the task of Machine Translation (MT) using decomposed prompting. We also qualitatively analyze certain aspects of the syntactic structure of sentences. Our experiments and analyses show that the proposed grouping technique brings uniformity in the syntactic structures, as well as aids underlying NLP tasks.

arxiv情報

著者 N J Karthika,Adyasha Patra,Nagasai Saketh Naidu,Arnab Bhattacharya,Ganesh Ramakrishnan,Chaitali Dangarikar
発行日 2025-01-07 18:46:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク