CodeIP: A Grammar-Guided Multi-Bit Watermark for Large Language Models of Code

要約

大規模言語モデル (LLM) は、コード生成において目覚ましい進歩を遂げました。
特に業界における知的財産 (IP) の保護やプログラミング演習での不正行為の防止などの目的では、コードが AI によって生成されたかどうかを識別し、使用される特定のモデルを決定することが重要になっています。
この目的を達成するために、機械生成コードに透かしを挿入するいくつかの試みが行われてきました。
ただし、既存のアプローチは、単一ビットの情報のみを挿入することに限定されています。
このペーパーでは、LLM のベンダー ID などの重要な出所の詳細を保存するための追加情報を挿入する新しいマルチビット透かし技術である CodeIP を紹介します。これにより、コード生成時に LLM の IP が保護されます。
さらに、生成されたコードの構文の正確さを保証するために、型予測子をトレーニングすることによって次のトークンを予測するためのサンプリング プロセスを制約することを提案します。
5 つのプログラミング言語にわたる現実世界のデータセットに対して行われた実験では、コードの構文の正確さを維持しながら、コード生成用の LLM に透かしを入れる CodeIP の有効性が実証されました。

要約(オリジナル)

Large Language Models (LLMs) have achieved remarkable progress in code generation. It now becomes crucial to identify whether the code is AI-generated and to determine the specific model used, particularly for purposes such as protecting Intellectual Property (IP) in industry and preventing cheating in programming exercises. To this end, several attempts have been made to insert watermarks into machine-generated code. However, existing approaches are limited to inserting only a single bit of information. In this paper, we introduce CodeIP, a novel multi-bit watermarking technique that inserts additional information to preserve crucial provenance details, such as the vendor ID of an LLM, thereby safeguarding the IPs of LLMs in code generation. Furthermore, to ensure the syntactical correctness of the generated code, we propose constraining the sampling process for predicting the next token by training a type predictor. Experiments conducted on a real-world dataset across five programming languages demonstrate the effectiveness of CodeIP in watermarking LLMs for code generation while maintaining the syntactical correctness of code.

arxiv情報

著者 Batu Guan,Yao Wan,Zhangqian Bi,Zheng Wang,Hongyu Zhang,Pan Zhou,Lichao Sun
発行日 2024-12-30 15:59:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク