MorphTok: Morphologically Grounded Tokenization for Indian Languages

要約

トークン化は、特に大規模な言語モデル(LLM)の増加に伴い、NLPの重要なステップであり、下流のパフォーマンス、計算コスト、効率に影響を与えます。
既存のLLMは、頻繁にキャラクターのBigRamsを貪欲に融合するサブワードトークン化のために、古典的なバイトペアエンコード(BPE)アルゴリズムに依存しています。
これは、多くの場合、言語的に意味のあるユニットと一致しないセグメンテーションにつながります。
これに対処するために、BPEを適用する前に、形態を意識するセグメンテーションをトークン化前のステップとして提案します。
形態認識セグメンテーションを促進するために、サブワードトークン化を強化するためにSandhi分割を組み込んだヒンディー語とマラーティー語の新しいデータセットを作成します。
下流のタスクでの実験は、形態学的に接地されたトークン化が機械の翻訳と言語モデリングのパフォーマンスを改善することを示しています。
さらに、ディクリティックスのユニコード文字のあいまいさ、特に音節ベースのライティングシステムに依存する母音を処理するために、スクリプト固有の制約を組み込んだ従来のBPEアルゴリズムの拡張である制約付きBPE(CBPE)を導入します。
具体的には、CBPEは従属母音を処理します。
我々の結果は、CBPEが肥沃度スコアの1.68 \%の減少を達成し、機械翻訳で同等または改善された下流のパフォーマンスを維持し、標準BPEに代わる計算効率の高い代替品を提供することを示しています。
さらに、さまざまなトークン化アルゴリズムにわたるセグメンテーションを評価するために、新しい人間の評価メトリック\ textit {evaltok}を導入し、より多くの人間に基づいた評価を可能にします。

要約(オリジナル)

Tokenization is a crucial step in NLP, especially with the rise of large language models (LLMs), impacting downstream performance, computational cost, and efficiency. Existing LLMs rely on the classical Byte-pair Encoding (BPE) algorithm for subword tokenization that greedily merges frequent character bigrams. This often leads to segmentation that does not align with linguistically meaningful units. To address this, we propose morphology-aware segmentation as a pre-tokenization step prior to applying BPE. To facilitate morphology-aware segmentation, we create a novel dataset for Hindi and Marathi, incorporating sandhi splitting to enhance the subword tokenization. Experiments on downstream tasks show that morphologically grounded tokenization improves performance for machine translation and language modeling. Additionally, to handle the ambiguity in the Unicode characters for diacritics, particularly dependent vowels in syllable-based writing systems, we introduce Constrained BPE (CBPE), an extension to the traditional BPE algorithm that incorporates script-specific constraints. Specifically, CBPE handles dependent vowels. Our results show that CBPE achieves a 1.68\% reduction in fertility scores while maintaining comparable or improved downstream performance in machine translation, offering a computationally efficient alternative to standard BPE. Moreover, to evaluate segmentation across different tokenization algorithms, we introduce a new human evaluation metric, \textit{EvalTok}, enabling more human-grounded assessment.

arxiv情報

著者 Maharaj Brahma,N J Karthika,Atul Singh,Devaraj Adiga,Smruti Bhate,Ganesh Ramakrishnan,Rohit Saluja,Maunendra Sankar Desarkar
発行日 2025-04-14 15:44:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク