How does a Language-Specific Tokenizer affect LLMs?

要約

言語固有のトークンザーの必要性は、効果的な自然言語処理には直感的に重要に見えますが、その重要性と根本的な理由に関する経験的分析は欠けています。
この研究では、言語固有のトークナーザーが、韓国語のケーススタディを通じて、英語のテキストデータで主に訓練された大規模な言語モデルの行動にどのように影響するかを探ります。
この研究は、2つの主要な段階で展開されています。(1)韓国固有の拡張トークニャー剤の開発と(2)モデルと基本的なトークン剤と拡張トークンザーをさまざまな次のトークン予測タスクで比較する実験。
詳細な分析により、拡張されたトークン剤は、生成中の誤った予測に対する信頼性を低下させ、複雑なタスクの交差体を減少させ、無意味な出力が少ない傾向を示していることが明らかになりました。
Consequently, the extended tokenizer provides stability during generation, potentially leading to higher performance in downstream tasks.

要約(オリジナル)

The necessity of language-specific tokenizers intuitively appears crucial for effective natural language processing, yet empirical analyses on their significance and underlying reasons are lacking. This study explores how language-specific tokenizers influence the behavior of Large Language Models predominantly trained with English text data, through the case study of Korean. The research unfolds in two main stages: (1) the development of a Korean-specific extended tokenizer and (2) experiments to compare models with the basic tokenizer and the extended tokenizer through various Next Token Prediction tasks. Our in-depth analysis reveals that the extended tokenizer decreases confidence in incorrect predictions during generation and reduces cross-entropy in complex tasks, indicating a tendency to produce less nonsensical outputs. Consequently, the extended tokenizer provides stability during generation, potentially leading to higher performance in downstream tasks.

arxiv情報

著者 Jean Seo,Jaeyoon Kim,SungJoo Byun,Hyopil Shin
発行日 2025-02-21 14:41:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク