A Practical Guide to Fine-tuning Language Models with Limited Data

要約

事前トレーニングされた大規模言語モデル (LLM) の採用は、膨大なデータ要件にもかかわらず、自然言語処理 (NLP) の事実上の標準となっています。
特に低リソースのドメインや言語において、限られたデータを使用して LLM をトレーニングすることに焦点を当てた研究が最近急増していることを動機として、この論文では、データが不足している下流タスクでモデルのパフォーマンスを最適化するための最近の転移学習アプローチを調査します。
私たちはまず、まだ見たことのない領域や言語に関する事前知識をより効果的に活用するための、初期および継続的な事前トレーニング戦略に取り組みます。
次に、微調整および少数ショット学習中に限られたデータの有用性を最大化する方法を検討します。
最後のセクションでは、タスク固有の観点から、さまざまなレベルのデータ不足に適したモデルと手法をレビューします。
私たちの目標は、制約されたデータによってもたらされる課題を克服するための実践的なガイドラインを実務家に提供すると同時に、将来の研究の有望な方向性を強調することです。

要約(オリジナル)

Employing pre-trained Large Language Models (LLMs) has become the de facto standard in Natural Language Processing (NLP) despite their extensive data requirements. Motivated by the recent surge in research focused on training LLMs with limited data, particularly in low-resource domains and languages, this paper surveys recent transfer learning approaches to optimize model performance in downstream tasks where data is scarce. We first address initial and continued pre-training strategies to better leverage prior knowledge in unseen domains and languages. We then examine how to maximize the utility of limited data during fine-tuning and few-shot learning. The final section takes a task-specific perspective, reviewing models and methods suited for different levels of data scarcity. Our goal is to provide practitioners with practical guidelines for overcoming the challenges posed by constrained data while also highlighting promising directions for future research.

arxiv情報

著者 Márton Szép,Daniel Rueckert,Rüdiger von Eisenhart-Rothe,Florian Hinterwimmer
発行日 2024-11-14 15:55:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク