Evaluating Tokenizer Performance of Large Language Models Across Official Indian Languages

要約

トランスフォーマー アーキテクチャに基づく大規模言語モデル (LLM) は、前処理と微調整の段階でトークン化が極めて重要な役割を果たし、さまざまなドメインに革命をもたらしました。
多言語モデル、特にインド言語に合わせたモデルでは、パフォーマンスを最適化するために効果的なトークン化が重要です。
このペーパーでは、トークン化プロセスの効率の比較に焦点を当て、インドの 22 の公用語すべてにわたって 12 の LLM が使用するトークナイザーの包括的な評価を示します。
私たちは、分析における重要な指標として正規化配列長 (NSL) を採用しました。
私たちの調査結果では、SUTRA トークナイザーは、いくつかのインド固有のモデルを含む他のすべてのモデルよりも優れており、14 の言語で優れていることが明らかになりました。
注目すべき洞察には、SUTRA トークナイザーのインド言語の優れた処理、GPT-4o のインド言語の処理における前世代の GPT-4 に対する進歩、特定の言語における Project Indus のパフォーマンスの制限などが含まれます。
この研究は、多言語およびインド中心のモデル向けにターゲットを絞ったトークン化戦略を開発することが非常に重要であることを強調し、言語カバレッジとモデル効率を向上させるトークナイザー設計の将来の改善の基礎を築きます。

要約(オリジナル)

Large Language Models (LLMs) based on transformer architectures have revolutionized a variety of domains, with tokenization playing a pivotal role in their pre-processing and fine-tuning stages. In multilingual models, particularly those tailored for Indic languages, effective tokenization is crucial for optimizing performance. This paper presents a comprehensive evaluation of tokenizers used by 12 LLMs across all 22 official languages of India, with a focus on comparing the efficiency of their tokenization processes. We employed the Normalized Sequence Length (NSL) as a key metric in our analysis. Our findings reveal that the SUTRA tokenizer outperforms all other models, including several Indic-specific models, excelling in 14 languages. Notable insights include the SUTRA tokenizer’s superior handling of Indic languages, GPT-4o’s advancement over its predecessor GPT-4 in processing Indian languages, and the limited performance of Project Indus in certain languages. This study underscores the critical importance of developing targeted tokenization strategies for multilingual and Indic-centric models, laying the groundwork for future improvements in tokenizer design to enhance linguistic coverage and model efficiency.

arxiv情報

著者 S. Tamang,D. J. Bora
発行日 2024-11-26 18:14:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク