A First Look at License Compliance Capability of LLMs in Code Generation

要約

大規模言語モデル (LLM) の最近の進歩はコード生成に革命をもたらし、開発者による AI コーディング ツールの広範な採用につながりました。
ただし、LLM は、必要なライセンス情報を提供せずにライセンスで保護されたコードを生成する可能性があり、ソフトウェアの製造中に知的財産侵害の可能性があります。
このペーパーでは、生成されたコードに正確なライセンス情報を提供する LLM の能力を評価するベンチマークを確立することにより、LLM で生成されたコードにおけるライセンス コンプライアンスの重要な、しかし十分に調査されていない問題に取り組んでいます。
このベンチマークを確立するために、LLM 出力と特定のオープンソース コード間のコピー関係を示す、独立した作成の可能性を排除する「顕著な類似性」の合理的な基準を特定するための実証研究を実施します。
この標準に基づいて、LLM のライセンス コンプライアンス機能を評価するための評価ベンチマーク LiCoEval を提案します。
LiCoEval を使用して 14 の人気のある LLM を評価したところ、最高のパフォーマンスを誇る LLM であっても、既存のオープンソース実装と驚くほど類似した無視できない割合 (0.88% ~ 2.01%) のコードが生成されることがわかりました。
特に、ほとんどの LLM は、特にコピーレフト ライセンスに基づくコードについて、正確なライセンス情報を提供できません。
これらの調査結果は、コード生成タスクにおける LLM 準拠機能を強化する緊急の必要性を強調しています。
私たちの研究は、AI支援ソフトウェア開発におけるライセンスコンプライアンスを向上させるための将来の研究開発の基盤を提供し、オープンソースソフトウェアの著作権の保護とLLMユーザーの法的リスクの軽減の両方に貢献します。

要約(オリジナル)

Recent advances in Large Language Models (LLMs) have revolutionized code generation, leading to widespread adoption of AI coding tools by developers. However, LLMs can generate license-protected code without providing the necessary license information, leading to potential intellectual property violations during software production. This paper addresses the critical, yet underexplored, issue of license compliance in LLM-generated code by establishing a benchmark to evaluate the ability of LLMs to provide accurate license information for their generated code. To establish this benchmark, we conduct an empirical study to identify a reasonable standard for ‘striking similarity’ that excludes the possibility of independent creation, indicating a copy relationship between the LLM output and certain open-source code. Based on this standard, we propose an evaluation benchmark LiCoEval, to evaluate the license compliance capabilities of LLMs. Using LiCoEval, we evaluate 14 popular LLMs, finding that even top-performing LLMs produce a non-negligible proportion (0.88% to 2.01%) of code strikingly similar to existing open-source implementations. Notably, most LLMs fail to provide accurate license information, particularly for code under copyleft licenses. These findings underscore the urgent need to enhance LLM compliance capabilities in code generation tasks. Our study provides a foundation for future research and development to improve license compliance in AI-assisted software development, contributing to both the protection of open-source software copyrights and the mitigation of legal risks for LLM users.

arxiv情報

著者 Weiwei Xu,Kai Gao,Hao He,Minghui Zhou
発行日 2024-08-05 14:09:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.SE パーマリンク