要約
オープンソースの大規模言語モデル (OsLLM) は、パフォーマンス向上のためにモデル パラメーターを拡張または更新する柔軟性を提供することで、自然言語研究の民主化を推進します。
それにもかかわらず、独自の LLM と同様に、Os-LLM は、トレーニング データの量が少なく、語彙が過小評価されているため、高リソース言語 (HRL) よりも低リソース言語 (LRL) でのパフォーマンスが劣ります。
一方で、言語固有の大量のデータを使用した継続的事前トレーニング (CPT) は、データ取得と計算リソースの点でコストがかかります。
私たちの目標は、CPT コストを大幅に削減することです。
そのために、まず、より大きなコーパスからテキストのサブセットを選択するための新しいアルゴリズムを開発します。
非常に少ない CPT データを使用して手法の有効性を示します。
さらなる改善を求めて、LLM 語彙に含めるトークンを選択する新しいアルゴリズムを設計しました。
私たちは、最新の Llama-3 モデルと、多様な文字と利用可能なリソースの範囲を備えた 9 つのインド言語を実験します。
評価には、インド言語の生成タスク ベンチマーク データセットである IndicGenBench を使用します。
私たちはさまざまな CPT コーパスと拡張語彙サイズを実験し、言語ファミリー全体にわたる洞察を提供します。
要約(オリジナル)
Open-source Large Language models (OsLLMs) propel the democratization of natural language research by giving the flexibility to augment or update model parameters for performance improvement. Nevertheless, like proprietary LLMs, Os-LLMs offer poorer performance on low-resource languages (LRLs) than high-resource languages (HRLs), owing to smaller amounts of training data and underrepresented vocabulary. On the other hand, continual pre-training (CPT) with large amounts of language-specific data is a costly proposition in terms of data acquisition and computational resources. Our goal is to drastically reduce CPT cost. To that end, we first develop a new algorithm to select a subset of texts from a larger corpus. We show the effectiveness of our technique using very little CPT data. In search of further improvement, we design a new algorithm to select tokens to include in the LLM vocabulary. We experiment with the recent Llama-3 model and nine Indian languages with diverse scripts and extent of resource availability. For evaluation, we use IndicGenBench, a generation task benchmark dataset for Indic languages. We experiment with various CPT corpora and augmented vocabulary size and offer insights across language families.
arxiv情報
著者 | Arijit Nag,Soumen Chakrabarti,Animesh Mukherjee,Niloy Ganguly |
発行日 | 2024-12-13 16:13:35+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google