要約
最近、大規模言語モデル (LLM) は自動コード生成において大きな進歩を遂げました。
これらのモデルは強力な命令追従機能にもかかわらず、コーディング シナリオでユーザーの意図に合わせるのに苦労することがよくありました。
特に、多様性に欠け、特殊なタスクや特殊なケースに対処できないデータセットによって妨げられていました。
さらに、教師あり微調整 (SFT) とヒューマン フィードバックからの強化学習 (RLHF) における課題により、人間の意図に合わせた正確なコードの生成に失敗しました。
これらの課題に取り組み、自動プログラミング システムのコード生成パフォーマンスを向上させるために、私たちは、フィードバック駆動型の適応型長期/短期メモリ強化コーディング最適化 (つまり、FALCON) を提案します。
FALCON は 2 つの階層レベルで構成されています。
全体的なレベルで見ると、長期記憶は学習した知識を保持および適用することでコードの品質を向上させます。
ローカル レベルでは、短期記憶によりコンパイラーや AI システムからの即時フィードバックを組み込むことができます。
さらに、フィードバック報酬を備えたメタ強化学習を導入して、グローバルとローカルの 2 レベルの最適化問題を解決し、さまざまなコード生成タスクにわたるモデルの適応性を強化します。
広範な実験により、私たちの技術が最先端のパフォーマンスを達成し、他の強化学習手法を MBPP ベンチマークで 4.5 パーセントポイント以上、Humaneval ベンチマークで 6.1 パーセントポイント以上リードしていることが実証されました。
オープンソースのコードは https://github.com/titurte/FALCON で公開されています。
要約(オリジナル)
Recently, large language models (LLMs) have achieved significant progress in automated code generation. Despite their strong instruction-following capabilities, these models frequently struggled to align with user intent in coding scenarios. In particular, they were hampered by datasets that lacked diversity and failed to address specialized tasks or edge cases. Furthermore, challenges in supervised fine-tuning (SFT) and reinforcement learning from human feedback (RLHF) led to failures in generating precise, human-intent-aligned code. To tackle these challenges and improve the code generation performance for automated programming systems, we propose Feedback-driven Adaptive Long/short-term memory reinforced Coding Optimization (i.e., FALCON). FALCON is structured into two hierarchical levels. From the global level, long-term memory improves code quality by retaining and applying learned knowledge. At the local level, short-term memory allows for the incorporation of immediate feedback from compilers and AI systems. Additionally, we introduce meta-reinforcement learning with feedback rewards to solve the global-local bi-level optimization problem and enhance the model’s adaptability across diverse code generation tasks. Extensive experiments demonstrate that our technique achieves state-of-the-art performance, leading other reinforcement learning methods by more than 4.5 percentage points on the MBPP benchmark and 6.1 percentage points on the Humaneval benchmark. The open-sourced code is publicly available at https://github.com/titurte/FALCON.
arxiv情報
著者 | Zeyuan Li,Yangfan He,Lewei He,Jianhui Wang,Tianyu Shi,Bin Lei,Yuchen Li,Qiuwu Chen |
発行日 | 2025-01-02 11:16:32+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google