Evaluating Instruction-Tuned Large Language Models on Code Comprehension and Generation

要約

この研究では、4 つの代表的なコード理解および生成タスクに関して 10 個のオープンソースの指示付き LLM を評価します。
以下の主な結果が得られました。
まず、ゼロショット設定に関しては、指示された LLM はコードの理解と生成タスクで非常に競争力があり、場合によっては各ダウンストリーム タスクで特別に微調整された小規模な SOTA モデルよりも優れている場合もあります。
また、指示された LLM の規模が大きいほど、コード関連のタスクが常に優れているわけではないこともわかりました。
第 2 に、少数ショット設定では、デモンストレーション サンプルを追加すると、指示された LLM がほとんどのコード理解および生成タスクでパフォーマンスを向上させるのに大幅に役立つことがわかりました。
ただし、この例ではパフォーマンスが不安定になったり、パフォーマンスがさらに悪化したりすることがあります。
さらに、広く使用されている BM25 ベースのショット選択戦略は、生成の問題に関してのみ、基本的なランダム選択または固定選択よりも大幅に優れていることがわかりました。
3 番目に、微調整設定については、微調整により、ゼロショット/ワンショットのパフォーマンスと比較して、下流のコード理解および生成タスクにおけるモデルのパフォーマンスがさらに向上する可能性があることがわかりました。
さらに、同じダウンストリーム タスク データセットで微調整された後、命令付き LLM は、命令調整なしの小規模 SOTA モデルと同様のスケールの LLM の両方よりも優れたパフォーマンスを発揮します。
調査結果に基づいて、モデルと使用方法の推奨事項、パフォーマンスとコストのトレードオフ、および将来の方向性に関する実用的な意味をさらに示します。

要約(オリジナル)

In this work, we evaluate 10 open-source instructed LLMs on four representative code comprehension and generation tasks. We have the following main findings. First, for the zero-shot setting, instructed LLMs are very competitive on code comprehension and generation tasks and sometimes even better than small SOTA models specifically fine-tuned on each downstream task. We also find that larger instructed LLMs are not always better on code-related tasks. Second, for the few-shot setting, we find that adding demonstration examples substantially helps instructed LLMs perform better on most code comprehension and generation tasks; however, the examples would sometimes induce unstable or even worse performance. Furthermore, we find widely-used BM25-based shot selection strategy significantly outperforms the basic random selection or fixed selection only on generation problems. Third, for the fine-tuning setting, we find that fine-tuning could further improve the model performance on downstream code comprehension and generation tasks compared to the zero-shot/one-shot performance. In addition, after being fine-tuned on the same downstream task dataset, instructed LLMs outperform both the small SOTA models and similar-scaled LLMs without instruction tuning. Based on our findings, we further present practical implications on model and usage recommendation, performance and cost trade-offs, and future direction.

arxiv情報

著者 Zhiqiang Yuan,Junwei Liu,Qiancheng Zi,Mingwei Liu,Xin Peng,Yiling Lou
発行日 2023-08-02 15:54:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク