Improving Conversational Abilities of Quantized Large Language Models via Direct Preference Alignment

要約

大規模言語モデル(LLM)の急速な進歩は、命令チューニングや人間のフィードバックからの強化学習(RLHF)などの高度な技術によって、文脈のニュアンスを把握し、人間の価値観を忠実に反映した適切な文章を生成できる会話チャットボットへの転換を促進している。しかし、学習後の量子化(PTQ)のような技術によって達成されるLLMに必要な計算効率は、トークンフリッピングのような課題をもたらし、チャットボットのパフォーマンスを損なう可能性がある。そこで我々は、量子化されたLLMを全精度のLLMと整合させることで、会話能力を向上させる新しいプリファレンス・アライメント・アプローチ、量子化を考慮した直接プリファレンス最適化(QDPO)を提案する。様々な言語の2つの命令チューニングされたLLMで評価した結果、QDPOは、確立されたPTQや知識蒸留の微調整技術と比較して、会話能力を向上させる上で優れた性能を示し、効率的で効果的な会話LLMの開発における重要な一歩となった。

要約(オリジナル)

The rapid advancement of large language models (LLMs) has facilitated their transformation into conversational chatbots that can grasp contextual nuances and generate pertinent sentences, closely mirroring human values through advanced techniques such as instruction tuning and reinforcement learning from human feedback (RLHF). However, the computational efficiency required for LLMs, achieved through techniques like post-training quantization (PTQ), presents challenges such as token-flipping that can impair chatbot performance. In response, we propose a novel preference alignment approach, quantization-aware direct preference optimization (QDPO), that aligns quantized LLMs with their full-precision counterparts, improving conversational abilities. Evaluated on two instruction-tuned LLMs in various languages, QDPO demonstrated superior performance in improving conversational abilities compared to established PTQ and knowledge-distillation fine-tuning techniques, marking a significant step forward in the development of efficient and effective conversational LLMs.

arxiv情報

著者 Janghwan Lee,Seongmin Park,Sukjin Hong,Minsoo Kim,Du-Seong Chang,Jungwook Choi
発行日 2024-07-03 12:19:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL パーマリンク