Aligning Large Language Models with Counterfactual DPO

要約

大規模言語モデル (LLM) の進歩により、さまざまなアプリケーションにわたって顕著な機能が実証されました。
これらのモデルは、文脈的に一貫性があり、広範な主題をカバーするテキスト補完の生成に優れています。
ただし、トレーニングに必要な膨大なデータセットにより、事前トレーニングおよび指導調整フェーズでの応答スタイルを調整することが困難になります。
したがって、通常は追加の調整フェーズが使用されます。このフェーズでは、モデルが人間の好みのデータを使用してさらにトレーニングされ、その出力が人間の期待とよりよく一致するようになります。
このプロセス自体は新しい機能を導入するものではありませんが、モデル本来の生成スタイルを強調します。
このペーパーでは、人間の介入に頼らずにモデルのスタイルを調整するために、直接優先最適化 (DPO) のフレームワーク内で反事実プロンプトを利用する方法を検討します。
この方法が効果的に望ましい行動を浸透させ、望ましくない行動を緩和し、モデルが不適切な指示を無視するよう促すことを実証します。
私たちの調査結果は、DPO による反事実的なプロンプトが、責任があり倫理的に調整された AI システムの要求を満たすために LLM を微調整する低リソースの方法を提供することを示唆しています。

要約(オリジナル)

Advancements in large language models (LLMs) have demonstrated remarkable capabilities across a diverse range of applications. These models excel in generating text completions that are contextually coherent and cover an extensive array of subjects. However, the vast datasets required for their training make aligning response styles during the pretraining and instruction tuning phases challenging. Consequently, an additional alignment phase is typically employed, wherein the model is further trained with human preference data to better align its outputs with human expectations. While this process doesn’t introduce new capabilities per se, it does accentuate generation styles innate to the model. This paper explores the utilization of counterfactual prompting within the framework of Direct Preference Optimization (DPO) to align the model’s style without relying on human intervention. We demonstrate that this method effectively instils desirable behaviour, mitigates undesirable ones, and encourages the model to disregard inappropriate instructions. Our findings suggest that counterfactual prompting with DPO presents a low-resource way to fine-tune LLMs to meet the demands for responsible and ethically aligned AI systems.

arxiv情報

著者 Bradley Butcher
発行日 2024-01-19 08:57:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク