UnifiedCrawl: Aggregated Common Crawl for Affordable Adaptation of LLMs on Low-Resource Languages

要約

大規模言語モデル (LLM) は、トレーニング データが限られているため、低リソース言語ではパフォーマンスが低下します。
Common Crawl コーパス全体から低リソース言語のテキスト データを効率的に収集する方法を紹介します。
私たちのアプローチである UnifiedCrawl は、最小限のコンピューティング リソースを使用して一般的なクロールをフィルタリングして抽出し、以前に利用可能なソースよりもはるかに大きな単一言語データセットを生成します。
このデータを活用して効率的なアダプター メソッド (QLoRA) を介して多言語 LLM を微調整すると、VRAM の使用量を最小限に抑えながら、低リソース言語でのパフォーマンスが大幅に向上することを実証します。
私たちの実験では、言語モデリングの複雑さが大幅に改善され、少数ショット プロンプト スコアが増加したことが示されています。
私たちの取り組みとリリースされたソース コードは、消費者向けハードウェアを使用して低リソース言語の LLM を改善するための手頃なアプローチを提供します。
私たちのソース コードは、https://github.com/bethelmelesse/unifiedcrawl から入手できます。

要約(オリジナル)

Large language models (LLMs) under-perform on low-resource languages due to limited training data. We present a method to efficiently collect text data for low-resource languages from the entire Common Crawl corpus. Our approach, UnifiedCrawl, filters and extracts common crawl using minimal compute resources, yielding mono-lingual datasets much larger than previously available sources. We demonstrate that leveraging this data to fine-tuning multilingual LLMs via efficient adapter methods (QLoRA) significantly boosts performance on the low-resource language, while minimizing VRAM usage. Our experiments show large improvements in language modeling perplexity and an increase in few-shot prompting scores. Our work and released source code provide an affordable approach to improve LLMs for low-resource languages using consumer hardware. Our source code is available here at https://github.com/bethelmelesse/unifiedcrawl.

arxiv情報

著者 Bethel Melesse Tessema,Akhil Kedia,Tae-Sun Chung
発行日 2024-11-21 17:41:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 68T50, cs.AI, cs.CL, I.2.7 パーマリンク