要約
大規模言語モデル (LLM) アライメントに対する最近のアプローチでは、通常、何百万もの人間によるアノテーションが必要になるか、合成データの生成に外部のアライメントされたモデルに依存します。
この論文では、ALMA: 最小限のアノテーションによるアライメントを紹介し、従来のアプローチの 1% 未満である 9,000 個のラベル付きサンプルだけを使用して効果的なアライメントを達成できることを実証します。
ALMA は、少数ショット学習による多様なプロンプト合成、複数のモデル チェックポイントによる多様な応答生成、スコア集計と自己蒸留による判定 (報酬モデル) 強化といった新しい技術を通じて、大量の高品質の合成アライメント データを生成します。
ALMA は、事前トレーニング済みの Llama3 基本モデル、5,000 の SFT サンプル、および 4,000 の判定アノテーションのみを使用して、さまざまなアライメント ベンチマークにわたって Llama3-Instruct に近いパフォーマンスを達成します (たとえば、AlpacaEval 2.0 スコアで 0.1% の差)。
これらの結果は、マルチラウンドの自己ブートストラップ データ合成およびトレーニング レシピによって達成され、10 ラウンドにわたって改善を続け、従来の方法の一般的な 3 ラウンドの上限を超えています。
これらの結果は、基本モデルが効果的な位置合わせのための十分な知識をすでに持っており、合成データ生成方法でそれを明らかにできることを示唆しています。
要約(オリジナル)
Recent approaches to large language model (LLM) alignment typically require millions of human annotations or rely on external aligned models for synthetic data generation. This paper introduces ALMA: Alignment with Minimal Annotation, demonstrating that effective alignment can be achieved using only 9,000 labeled examples — less than 1% of conventional approaches. ALMA generates large amounts of high-quality synthetic alignment data through new techniques: diverse prompt synthesis via few-shot learning, diverse response generation with multiple model checkpoints, and judge (reward model) enhancement through score aggregation and self-distillation. Using only a pretrained Llama3 base model, 5,000 SFT examples, and 4,000 judge annotations, ALMA achieves performance close to Llama3-Instruct across diverse alignment benchmarks (e.g., 0.1% difference on AlpacaEval 2.0 score). These results are achieved with a multi-round, self-bootstrapped data synthesis and training recipe that continues to improve for 10 rounds, surpassing the typical 3-round ceiling of previous methods. These results suggest that base models already possess sufficient knowledge for effective alignment, and that synthetic data generation methods can expose it.
arxiv情報
著者 | Michihiro Yasunaga,Leonid Shamis,Chunting Zhou,Andrew Cohen,Jason Weston,Luke Zettlemoyer,Marjan Ghazvininejad |
発行日 | 2024-12-05 16:26:31+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google