When Neural Code Completion Models Size up the Situation: Attaining Cheaper and Faster Completion through Dynamic Model Inference

要約

大規模言語モデルの最近の進歩を活用して、最新のニューラル コード補完モデルは、高精度のコード提案を生成する機能を実証しました。
ただし、その巨大なサイズにより、計算コストと環境への影響の点で課題が生じ、実際のシナリオでの広範な採用が妨げられています。
動的推論は、モデルのパフォーマンスを維持しながら推論中に最小限の計算を割り当てるため、有望なソリューションとして浮上しています。
この研究では、コード補完のコンテキスト内で動的推論を調査します。
当初、私たちはコード補完のための中間層の推論機能に焦点を当てて、GPT-2 に関する実証調査を実施しました。
最初の層だけを使用してトークンの 54.4% を正確に生成できることがわかり、大幅な計算量節約の可能性が示されました。
さらに、すべてのレイヤーを使用しているにもかかわらず、モデルは依然として 14.5% のトークンを正しく予測できず、それらから続くその後の完了はほとんど役に立たないと考えられており、受け入れ率はわずか 4.2% です。
これらの発見は、コード補完における動的推論の探求の動機となり、不正なコードの生成を阻止する意思決定メカニズムによって動的推論を強化することを促すものです。
したがって、コード補完モデルに特化した新しい動的推論方法を提案します。
この方法は、大幅に削減された計算で正しい予測を生成するだけでなく、誤った予測を積極的に防ぐことも目的としています。
私たちの広範な評価では、モデル内の 16 レイヤーのうち平均 1.7 レイヤーをスキップできることが示されており、ROUGE-L ではわずか 1.1% の削減にとどまり、11.2% の高速化につながります。

要約(オリジナル)

Leveraging recent advancements in large language models, modern neural code completion models have demonstrated the capability to generate highly accurate code suggestions. However, their massive size poses challenges in terms of computational costs and environmental impact, hindering their widespread adoption in practical scenarios. Dynamic inference emerges as a promising solution, as it allocates minimal computation during inference while maintaining the model’s performance. In this research, we explore dynamic inference within the context of code completion. Initially, we conducted an empirical investigation on GPT-2, focusing on the inference capabilities of intermediate layers for code completion. We found that 54.4% of tokens can be accurately generated using just the first layer, signifying significant computational savings potential. Moreover, despite using all layers, the model still fails to predict 14.5% of tokens correctly, and the subsequent completions continued from them are rarely considered helpful, with only a 4.2% Acceptance Rate. These findings motivate our exploration of dynamic inference in code completion and inspire us to enhance it with a decision-making mechanism that stops the generation of incorrect code. We thus propose a novel dynamic inference method specifically tailored for code completion models. This method aims not only to produce correct predictions with largely reduced computation but also to prevent incorrect predictions proactively. Our extensive evaluation shows that it can averagely skip 1.7 layers out of 16 layers in the models, leading to an 11.2% speedup with only a marginal 1.1% reduction in ROUGE-L.

arxiv情報

著者 Zhensu Sun,Xiaoning Du,Fu Song,Shangwen Wang,Li Li
発行日 2024-01-18 13:26:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.SE パーマリンク