要約
大規模言語モデル (LLM) とユーザー定義のコーディング設定との整合性を評価することは、LLM の出力を詳細に評価する必要がある困難な作業です。
既存の手法とベンチマークは主に自動化されたメトリクスと静的分析ツールに依存しているため、ユーザーの指示や LLM 出力のニュアンスを捉えることができないことがよくあります。
このギャップに対処するために、LLM とコーディング設定の整合性を評価するために、LLM-as-a-Judge 手法を使用することを提案します。
このアプローチに基づいて、LLM アラインメントの評価と改善を促進するように設計された包括的なデータセットである CodeUltraFeedback を紹介します。
CodeUltraFeedback は 10,000 のコーディング命令で構成されており、各命令には 14 個の LLM の多様なプールから生成された 4 つの応答で注釈が付けられています。
これらの回答は、GPT-3.5 を審査員として使用する 5 つの異なるコーディング設定に基づいてランク付けされ、数値スコアと詳細なテキスト フィードバックの両方が提供されます。
CodeUltraFeedback の分析では、GPT-3.5 および GPT-4 からの応答がオープンウェイト LLM からの応答よりも一般的に好まれていることが明らかになり、クローズド モデルとオープンウェイト モデル間の整合性の大きな違いが強調されています。
次に、教師あり微調整 (SFT) と AI フィードバックからの強化学習 (RLAIF) と直接優先最適化 (DPO) を使用して、CodeLlama-7B-Instruct を微調整および調整するためのフィードバック データとして CodeUltraFeedback を使用する方法を検討します。
結果として調整された CodeLlama-7B-Instruct モデルは、コーディング設定との調整という点で大規模な LLM よりも優れており、元の命令モデルと比較して HumanEval+ ベンチマークで機能の正確性が向上しています。
したがって、私たちの貢献は、コードに対する LLM の優先調整におけるギャップを埋め、自動化されたソフトウェア エンジニアリングにおけるモデル アラインメントと RLAIF のさらなる進歩への準備を整えます。
要約(オリジナル)
Evaluating the alignment of large language models (LLMs) with user-defined coding preferences is a challenging endeavour that requires a deep assessment of LLMs’ outputs. Existing methods and benchmarks rely primarily on automated metrics and static analysis tools, which often fail to capture the nuances of user instructions and LLM outputs. To address this gap, we propose using the LLM-as-a-Judge methodology to evaluate the alignment of LLMs with coding preferences. Based on this approach, we present CodeUltraFeedback, a comprehensive dataset designed to facilitate the evaluation and improvement of LLM alignment. CodeUltraFeedback consists of 10,000 coding instructions, each annotated with four responses generated from a diverse pool of 14 LLMs. These responses are ranked based on five distinct coding preferences using GPT-3.5 as a judge, providing both numerical scores and detailed textual feedback. Our analysis of CodeUltraFeedback reveals that responses from GPT-3.5 and GPT-4 are generally preferred over those from open-weight LLMs, highlighting significant differences in alignment between closed and open-weight models. In turn, we explore the usage of CodeUltraFeedback as feedback data to fine-tune and align CodeLlama-7B-Instruct using supervised fine-tuning (SFT) and reinforcement learning from AI feedback (RLAIF) with direct preference optimization (DPO). The resulting aligned CodeLlama-7B-Instruct model outperforms larger LLMs in terms of alignment with coding preferences and shows improved functional correctness on the HumanEval+ benchmark compared to the original instruct model. Therefore, our contributions bridge the gap in preference tuning of LLMs for code and set the stage for further advancements in model alignment and RLAIF in automated software engineering.
arxiv情報
著者 | Martin Weyssow,Aton Kamanda,Xin Zhou,Houari Sahraoui |
発行日 | 2024-12-27 05:13:23+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google