Tamil-Llama: A New Tamil Language Model Based on Llama 2

要約

言語モデリングは近年目覚ましい進歩を遂げており、ChatGPT のような大規模言語モデル (LLM) は人間のようなテキスト生成において比類のないベンチマークを設定しています。
ただし、一般的な制限として、これらの最先端のモデルではタミル語などの言語が過小評価されており、多様な言語コンテキストにおいて最適なパフォーマンスが得られないことが挙げられます。
この論文では、タミル語で優れたテキスト生成と理解を達成することを目的として、16,000 個のタミル語トークンを追加してオープンソース LLaMA モデルを強化し、この不足点に対処します。
私たちは、包括的なタミル語コーパスで効率的なモデルトレーニングを行うために LoRA 方法論を戦略的に採用し、計算の実行可能性とモデルの堅牢性を保証します。
さらに、Alpaca データセットのタミル語翻訳版と、命令の微調整用に調整された OpenOrca データセットのサブセットを紹介します。
私たちの結果は、タミル語テキスト生成におけるパフォーマンスの大幅な向上を示しており、インド言語における LLM のより広範な状況に潜在的な影響を及ぼします。
私たちは、モデル、データセット、コードを公的にアクセスできるようにすることでオープンリサーチへの取り組みをさらに強調し、言語モデリングにおけるさらなる革新を促進します。

要約(オリジナル)

Language modeling has witnessed remarkable advancements in recent years, with Large Language Models (LLMs) like ChatGPT setting unparalleled benchmarks in human-like text generation. However, a prevailing limitation is the underrepresentation of languages like Tamil in these cutting-edge models, leading to suboptimal performance in diverse linguistic contexts. This paper addresses this lacuna, enhancing the open-source LLaMA model with an addition of 16,000 Tamil tokens, aiming to achieve superior text generation and comprehension in the Tamil language. We strategically employ the LoRA methodology for efficient model training on a comprehensive Tamil corpus, ensuring computational feasibility and model robustness. Moreover, we introduce a Tamil-translated version of the Alpaca dataset and a subset of the OpenOrca dataset tailored for instruction fine-tuning. Our results showcase significant performance improvements in Tamil text generation, with potential implications for the broader landscape of LLMs in Indian languages. We further underscore our commitment to open research by making our models, datasets, and code publicly accessible, fostering further innovations in language modeling.

arxiv情報

著者 Abhinand Balachandran
発行日 2023-11-10 03:02:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク