Unseen Horizons: Unveiling the Real Capability of LLM Code Generation Beyond the Familiar

要約

最近、大規模言語モデル (LLM) がコード生成タスクにおいて強力な可能性を示しています。
しかし、実際のソフトウェア開発プロセスに完全に適用するにはまだギャップがあります。
大規模な言語モデルのコード生成機能を正確に評価することは、モデルを評価および改善するための重要な基礎となっています。
既存の研究の中には、これらのモデルの機能を評価するためにデータセットを構築したものもあります。
ただし、現在の評価プロセスでは、主にターゲット コードの公開、ケースの適時性、依存関係の可用性という 3 つのギャップにより、「精通したスペシャリスト」という幻想に遭遇する可能性があります。
これらのギャップの根本的な理由は、現在のデータセット内のコードがトレーニング段階で広範囲に公開および実行された可能性があり、LLM の継続的なトレーニングと開発により、その適時性が大幅に損なわれていることです。
問題を解決する鍵は、可能な限り、これまでに遭遇したことのないコードを使用して LLM を評価することです。
したがって、このホワイトペーパーの基本的な考え方は、コード難読化の概念を利用し、機能と出力を確保しながらさまざまなレベルでコードを変更することです。
この目的を達成するために、コード難読化ベースのベンチマーク OBFUSEVAL を構築します。
まず、実際の 5 つのプロジェクトから、関数の説明やコードを含む 1,354 の生のケースを収集します。
次に、3 レベルの戦略 (シンボル、構造、セマンティクス) を使用して、説明、コード、およびコンテキストの依存関係を難読化します。
OBFU-SEVAL で 4 つの LLM を評価し、さまざまな難読化戦略の有効性を比較しました。
これらのプロジェクトの公式テスト スイートを使用して、生成されたコードを評価します。
結果は、難読化後、テスト合格率の平均低下率が最大 62.5% になる可能性があることを示しています。

要約(オリジナル)

Recently, large language models (LLMs) have shown strong potential in code generation tasks. However, there are still gaps before they can be fully applied in actual software development processes. Accurately assessing the code generation capabilities of large language models has become an important basis for evaluating and improving the models. Some existing works have constructed datasets to evaluate the capabilities of these models. However, the current evaluation process may encounter the illusion of ‘Specialist in Familiarity’, primarily due to three gaps: the exposure of target code, case timeliness, and dependency availability. The fundamental reason for these gaps is that the code in current datasets may have been extensively exposed and exercised during the training phase, and due to the continuous training and development of LLM, their timeliness has been severely compromised. The key to solve the problem is to, as much as possible, evaluate the LLMs using code that they have not encountered before. Thus, the fundamental idea in this paper is to draw on the concept of code obfuscation, changing code at different levels while ensuring the functionality and output. To this end, we build a code-obfuscation based benchmark OBFUSEVAL. We first collect 1,354 raw cases from five real-world projects, including function description and code. Then we use three-level strategy (symbol, structure and semantic) to obfuscate descriptions, code and context dependencies. We evaluate four LLMs on OBFU- SEVAL and compared the effectiveness of different obfuscation strategy. We use official test suites of these projects to evaluate the generated code. The results show that after obfuscation, the average decrease ratio of test pass rate can up to 62.5%.

arxiv情報

著者 Yuanliang Zhang,Yifan Xie,Shanshan Li,Ke Liu,Chong Wang,Zhouyang Jia,Xiangbing Huang,Jie Song,Chaopeng Luo,Zhizheng Zheng,Rulin Xu,Yitong Liu,Si Zheng,Xiangke Liao
発行日 2025-01-15 11:57:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.SE パーマリンク