要約
アライメントは、大規模言語モデル(LLM)を人間の嗜好に近づけるための重要なステップである。本論文では、強度の異なる複数のモデル(InstructGPT、ChatGPT、GPT-4など)から嗜好ペアを自動的に構築することで、アライメントのための対照的なポストトレーニング技術を探索する。SLiCとDPOの対比技術をSFTベースラインと注意深く比較し、SFTが飽和した後でもDPOがステップ関数的な改善をもたらすことを発見する。また、対照的なポストトレーニングのためのデータカリキュラム学習スキームを検討し、「より簡単な」ペアから学習を開始し、「より難しい」ペアに移行することで、アライメントをさらに改善する。最後に、より多くのデータとOrcaのような大きなモデルで学習するために実験をスケールアップする。驚くべきことに、対照的ポストトレーニングは、すでにGPT-4の出力でチューニングされた最先端の命令学習モデルであるOrcaの性能をさらに向上させ、ChatGPTの性能を上回った。
要約(オリジナル)
Alignment serves as an important step to steer large language models (LLMs) towards human preferences. In this paper, we explore contrastive post-training techniques for alignment by automatically constructing preference pairs from multiple models of varying strengths (e.g., InstructGPT, ChatGPT and GPT-4). We carefully compare the contrastive techniques of SLiC and DPO to SFT baselines and find that DPO provides a step-function improvement even after continueing SFT saturates. We also explore a data curriculum learning scheme for contrastive post-training, which starts by learning from ‘easier’ pairs and transitioning to ‘harder’ ones, which further improves alignment. Finally, we scale up our experiments to train with more data and larger models like Orca. Remarkably, contrastive post-training further improves the performance of Orca, already a state-of-the-art instruction learning model tuned with GPT-4 outputs, to exceed that of ChatGPT.
arxiv情報
著者 | Canwen Xu,Corby Rosset,Luciano Del Corro,Shweti Mahajan,Julian McAuley,Jennifer Neville,Ahmed Hassan Awadallah,Nikhil Rao |
発行日 | 2023-10-03 17:59:46+00:00 |
arxivサイト | arxiv_id(pdf) |