How to Select Pre-Trained Code Models for Reuse? A Learning Perspective

要約

言語モデルを事前トレーニングしてから微調整することは、コード生成、コード要約、脆弱性検出などの幅広いコード インテリジェンス タスクにとって効率的かつ効果的な手法であることがわかっています。
ただし、大規模なコード コーパスで言語モデルを事前トレーニングすると、計算コストが高くなります。
幸いなことに、CodeBERT、CodeT5、CodeGen、Code Llama など、多くの既製の事前トレーニング済みコード モデル (PCM) が公開されています。
これらのモデルは、事前トレーニング中に一般的なコードの理解と生成機能を獲得し、下流のコード インテリジェンス タスクのパフォーマンスを向上させます。
このような公開済みの事前トレーニング済みモデルの数が増加しているため、特定のタスクに再利用するのに最も適したモデルを選択することが不可欠です。
この論文では、PCM の再利用可能性を体系的に調査します。
まず、サイズ、トレーニング データ、またはブルート フォース微調整によって選択する 3 つの直感的なモデル選択方法を検討します。
実験結果によると、これらの単純な手法はパフォーマンスが低いか、コストが高くなるかのどちらかです。
これらの発見に動機付けられて、私たちは、パラメーターを変更せずに事前トレーニングされたモデルを利用する学習ベースのモデル選択戦略を探索します。
具体的には、プロキシ モデルをトレーニングして、事前トレーニングされたモデルのパフォーマンスを測定し、モデルの潜在的特徴とタスクのラベルの間の分布の偏差を、それらの近さをモデルの伝達​​可能性の指標として使用して測定します。
私たちは、コード インテリジェンス タスク用に広く使用されている 100 個のオープンソース PCM で実験を実施しており、そのサイズは 4,250 万から 30 億のパラメーターに及びます。
結果は、学習ベースの選択方法では選択時間が 100 秒に短縮されるのに対し、ブルートフォース微調整では 2,700 時間かかり、関連タスク全体のパフォーマンス低下は 6% 未満であることが示されています。

要約(オリジナル)

Pre-training a language model and then fine-tuning it has shown to be an efficient and effective technique for a wide range of code intelligence tasks, such as code generation, code summarization, and vulnerability detection. However, pretraining language models on a large-scale code corpus is computationally expensive. Fortunately, many off-the-shelf Pre-trained Code Models (PCMs), such as CodeBERT, CodeT5, CodeGen, and Code Llama, have been released publicly. These models acquire general code understanding and generation capability during pretraining, which enhances their performance on downstream code intelligence tasks. With an increasing number of these public pre-trained models, selecting the most suitable one to reuse for a specific task is essential. In this paper, we systematically investigate the reusability of PCMs. We first explore three intuitive model selection methods that select by size, training data, or brute-force fine-tuning. Experimental results show that these straightforward techniques either perform poorly or suffer high costs. Motivated by these findings, we explore learning-based model selection strategies that utilize pre-trained models without altering their parameters. Specifically, we train proxy models to gauge the performance of pre-trained models, and measure the distribution deviation between a model’s latent features and the task’s labels, using their closeness as an indicator of model transferability. We conduct experiments on 100 widely-used opensource PCMs for code intelligence tasks, with sizes ranging from 42.5 million to 3 billion parameters. The results demonstrate that learning-based selection methods reduce selection time to 100 seconds, compared to 2,700 hours with brute-force fine-tuning, with less than 6% performance degradation across related tasks.

arxiv情報

著者 Zhangqian Bi,Yao Wan,Zhaoyang Chu,Yufei Hu,Junyi Zhang,Hongyu Zhang,Guandong Xu,Hai Jin
発行日 2025-01-07 13:45:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.SE パーマリンク