Krutrim LLM: A Novel Tokenization Strategy for Multilingual Indic Languages with Petabyte-Scale Data Processing

要約

多言語インドの大規模な言語モデルを開発するためのデータ準備に対する新しいアプローチを提示します。
当社の細心のデータ収集は、一般的なクロール、インドの本、ニュース記事、ウィキペディアなど、オープンソースと独自の情報源に及び、多様で豊かな言語表現を確保しています。
インド語の各言語について、カスタム前処理パイプラインを設計して、冗長で低品質のテキストコンテンツを効果的に排除します。
さらに、クロールされたWebページの70%に存在する冗長性に対処するために、一般的なクロールデータの重複排除を実行します。
この研究は、高品質のデータの開発に焦点を当て、3Bおよび7Bパラメーターを備えたインドの大規模な言語モデルの多言語データセットのトークン化を最適化し、インド言語で優れた性能を提供します。
新しい多言語トークナイザートレーニング戦略を導入し、カスタムトレーニングを受けたインドトークンザーが最先端のOpenai Tiktokenトークネザーを上回ることを実証し、インド言語の優れたトークンとワードの比率を達成します。

要約(オリジナル)

We present a novel approach to data preparation for developing multilingual Indic large language model. Our meticulous data acquisition spans open-source and proprietary sources, including Common Crawl, Indic books, news articles, and Wikipedia, ensuring a diverse and rich linguistic representation. For each Indic language, we design a custom preprocessing pipeline to effectively eliminate redundant and low-quality text content. Additionally, we perform deduplication on Common Crawl data to address the redundancy present in 70% of the crawled web pages. This study focuses on developing high-quality data, optimizing tokenization for our multilingual dataset for Indic large language models with 3B and 7B parameters, engineered for superior performance in Indic languages. We introduce a novel multilingual tokenizer training strategy, demonstrating our custom-trained Indic tokenizer outperforms the state-of-the-art OpenAI Tiktoken tokenizer, achieving a superior token-to-word ratio for Indic languages.

arxiv情報

著者 Rahul Kumar,Shubham Kakde,Divyansh Rajput,Daud Ibrahim,Rishabh Nahata,Pidathala Sowjanya,Deepak Kumarr,Gautam Bhargava,Chandra Khatri
発行日 2025-04-01 15:16:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク