LLaMoCo: Instruction Tuning of Large Language Models for Optimization Code Generation

要約

最近の研究では、大規模言語モデル(LLM)を用いて、LLMから次のステップの解を反復的に求めるか、LLMに直接オプティマイザをプロンプトすることで、最適化を探っている。しかし、これらのアプローチには、運用効率の低さ、プロンプトの設計に対する感度の高さ、ドメイン固有の知識の欠如など、固有の限界があります。本論文では、コード・トゥ・コードで最適化問題を解くためにLLMを適応させるように設計された、初の命令チューニングフレームワークであるLLaMoCoを紹介する。具体的には、よく記述された問題プロンプトと効果的な最適化コードを含む包括的な命令セットを確立する。次に、モデルの微調整中の収束挙動を向上させるために、命令チューニングフェーズの前に、対照学習に基づくウォームアップ手順を組み込んだ新しい2段階学習戦略を開発する。実験の結果、我々のLLaMoCoによってファインチューニングされたCodeGen(350M)モデルは、合成問題セットと現実的な問題セットの両方において、GPT-4 Turboや他の競合製品に比べて優れた最適化性能を達成することが実証された。ファインチューニングされたモデルと使用方法は、https://anonymous.4open.science/r/LLaMoCo-722A。

要約(オリジナル)

Recent research explores optimization using large language models (LLMs) by either iteratively seeking next-step solutions from LLMs or directly prompting LLMs for an optimizer. However, these approaches exhibit inherent limitations, including low operational efficiency, high sensitivity to prompt design, and a lack of domain-specific knowledge. We introduce LLaMoCo, the first instruction-tuning framework designed to adapt LLMs for solving optimization problems in a code-to-code manner. Specifically, we establish a comprehensive instruction set containing well-described problem prompts and effective optimization codes. We then develop a novel two-phase learning strategy that incorporates a contrastive learning-based warm-up procedure before the instruction-tuning phase to enhance the convergence behavior during model fine-tuning. The experiment results demonstrate that a CodeGen (350M) model fine-tuned by our LLaMoCo achieves superior optimization performance compared to GPT-4 Turbo and the other competitors across both synthetic and realistic problem sets. The fine-tuned model and the usage instructions are available at https://anonymous.4open.science/r/LLaMoCo-722A.

arxiv情報

著者 Zeyuan Ma,Hongshu Guo,Jiacheng Chen,Guojun Peng,Zhiguang Cao,Yining Ma,Yue-Jiao Gong
発行日 2024-03-05 11:11:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CL, cs.LG, cs.NE, cs.SE, math.OC パーマリンク