要約
大規模な言語モデル(LLMS)は、3フェーズトレーニングプロセスを経ます:教師のないトレーニング、監視された微調整(SFT)、および人間のフィードバック(RLHF/DPO)からの学習。
特に、これらのモデルが否定的な例にさらされるのは最終段階でです – クエリに対する誤った、拒否、または最適ではない応答。
このペーパーでは、LLMSのトレーニングにおける否定的な例の役割を掘り下げて、尤度比(LIKRA)モデルを使用して、ベンチマークに応答する多肢選択式の質問に、影響力と否定的な例の量を正確に管理しています。
私たちの調査結果は、3つの重要な洞察を明らかにしています。(1)トレーニングの重要な段階で、否定的な例を持つLikraは、肯定的な例のみを使用してSFTと比較して、トレーニングの例ごとに著しく大きな改善を示しています。
これは、SFTのスムーズで徐々に改善するのとは異なり、LIKRAの学習曲線の急激なジャンプにつながります。
(2)もっともらしいが間違っている(近い)より大きな影響を及ぼす否定的な例。
(3)肯定的な例でトレーニングすることは、もっともらしいが誤った答えの可能性を大幅に減らすことができませんが、否定的な例でトレーニングがそれらをより正確に識別します。
これらの結果は、精度を改善し、LLMSの幻覚を減らす上での否定的な例に潜在的に重要な役割を示しています。
要約(オリジナル)
Large language models (LLMs) undergo a three-phase training process: unsupervised pre-training, supervised fine-tuning (SFT), and learning from human feedback (RLHF/DPO). Notably, it is during the final phase that these models are exposed to negative examples — incorrect, rejected, or suboptimal responses to queries. This paper delves into the role of negative examples in the training of LLMs, using a likelihood-ratio (Likra) model on multiple-choice question answering benchmarks to precisely manage the influence and the volume of negative examples. Our findings reveal three key insights: (1) During a critical phase in training, Likra with negative examples demonstrates a significantly larger improvement per training example compared to SFT using only positive examples. This leads to a sharp jump in the learning curve for Likra unlike the smooth and gradual improvement of SFT; (2) negative examples that are plausible but incorrect (near-misses) exert a greater influence; and (3) while training with positive examples fails to significantly decrease the likelihood of plausible but incorrect answers, training with negative examples more accurately identifies them. These results indicate a potentially significant role for negative examples in improving accuracy and reducing hallucinations for LLMs.
arxiv情報
著者 | Shadi Hamdan,Deniz Yuret |
発行日 | 2025-03-18 16:26:29+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google