Latent Distance Guided Alignment Training for Large Language Models

要約

人間の好みとの整合性を確保することは、大規模言語モデル (LLM) の重要な特性です。
現在、主要なアライメント方法である RLHF および DPO は、人間による大規模なアノテーションを必要とし、その有効性にもかかわらず高価です。
現在の位置合わせ技術に関連する多額の費用により、研究者は注釈不要の位置合わせトレーニング方法の開発を研究するようになりました。
外部アノテーションに頼らずにアライメントの改善を追求するために、潜在距離ガイド付きアライメント トレーニング (LD-Align) を導入します。
このアプローチは、潜在空間からのガイダンスを使用して、高品質の教師付き微調整データセットとモデルを調整することを目的としています。
潜在空間は、自動エンコーディングと同様に、サンプルの再構成を通じて生成されます。
したがって、潜在空間内のサンプル ペア間の距離を利用して、DPO ベースのアライメント トレーニングをガイドします。
広範な実験と評価により、顕著な位置合わせを達成する上で私たちが提案した方法の有効性が示されています。

要約(オリジナル)

Ensuring alignment with human preferences is a crucial characteristic of large language models (LLMs). Presently, the primary alignment methods, RLHF and DPO, require extensive human annotation, which is expensive despite their efficacy. The significant expenses associated with current alignment techniques motivate researchers to investigate the development of annotation-free alignment training methods. In pursuit of improved alignment without relying on external annotation, we introduce Latent Distance Guided Alignment Training (LD-Align). This approach seeks to align the model with a high-quality supervised fine-tune dataset using guidance from a latent space. The latent space is generated through sample reconstruction, akin to auto-encoding. Consequently, we utilize the distance between sample pairs in the latent space to guide DPO-based alignment training. Extensive experimentation and evaluation show the efficacy of our proposed method in achieving notable alignment.

arxiv情報

著者 Haotian Luo,Wenhao Zheng,Huaxiu Yao
発行日 2024-04-09 15:33:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク