Exploring Distributional Shifts in Large Language Models for Code Analysis


コードの 2 つの大きな言語モデル (CodeT5 と Codex) の容量を体系的に研究して、ドメイン外のデータに一般化します。
この研究では、コード要約とコード生成という 2 つの基本的なアプリケーションを検討します。
データは、その自然な境界 (組織、プロジェクト、およびソフトウェア プロジェクト内のモジュール) に従ってドメインに分割されます。
私たちの実験では、マルチタスク学習だけでも妥当なベースラインですが、それをトレーニング データから取得したサンプルの数回の微調整と組み合わせることで、非常に強力なパフォーマンスを達成できることが示されています。


We systematically study the capacity of two large language models for code – CodeT5 and Codex – to generalize to out-of-domain data. In this study, we consider two fundamental applications – code summarization, and code generation. We split data into domains following its natural boundaries – by an organization, by a project, and by a module within the software project. This makes recognition of in-domain vs out-of-domain data at the time of deployment trivial. We establish that samples from each new domain present both models with a significant challenge of distribution shift. We study how well different established methods can adapt models to better generalize to new domains. Our experiments show that while multitask learning alone is a reasonable baseline, combining it with few-shot finetuning on examples retrieved from training data can achieve very strong performance. In fact, according to our experiments, this solution can outperform direct finetuning for very low-data scenarios. Finally, we consider variations of this approach to create a more broadly applicable method to adapt to multiple domains at once. We find that in the case of code generation, a model adapted to multiple domains simultaneously performs on par with those adapted to each domain individually.


著者 Shushan Arakelyan,Rocktim Jyoti Das,Yi Mao,Xiang Ren
発行日 2023-03-16 07:45:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG, cs.SE パーマリンク