ProFLingo: A Fingerprinting-based Intellectual Property Protection Scheme for Large Language Models

要約

近年、大規模言語モデル (LLM) が大きな注目を集めています。
LLM は「大きい」という性質があるため、最初からトレーニングすると膨大な計算リソースが消費されます。
人工知能 (AI) 分野のいくつかの主要企業がオリジナルの LLM をオープンソース化しているため、ますます多くの個人研究者や中小企業が、これらのオープンソースのモデルに基づいて派生 LLM をはるかに低コストで構築できるようになりました。
ただし、この方法では、ライセンス契約に準拠しない不正使用または複製の可能性が生じ、微調整によってモデルの動作が変更される可能性があるため、モデルの所有権の決定が複雑になります。
現在の LLM の知的財産 (IP) 保護スキームは、ホワイトボックス設定用に設計されているか、元のモデルに追加の変更を必要とするため、現実の設定での使用が制限されています。
この論文では、LLM 向けのブラックボックス フィンガープリンティング ベースの IP 保護スキームである ProFLingo を提案します。
ProFLingo は、元のモデルから特定の応答を引き出すクエリを生成し、それによって一意のフィンガープリントを確立します。
私たちのスキームは、疑わしいモデルに対するこれらのクエリの有効性を評価して、それが元のモデルから派生したかどうかを判断します。
ProFLingo は非侵襲的なアプローチを提供します。これには、疑わしいモデルの知識も、ベース モデルやそのトレーニング プロセスへの変更も必要ありません。
私たちの知る限り、私たちの方法は、LLM の IP 保護のための最初のブラックボックス フィンガープリンティング技術となります。
ソース コードと生成されたクエリは、https://github.com/hengvt/ProFLingo で入手できます。

要約(オリジナル)

Large language models (LLMs) have attracted significant attention in recent years. Due to their ‘Large’ nature, training LLMs from scratch consumes immense computational resources. Since several major players in the artificial intelligence (AI) field have open-sourced their original LLMs, an increasing number of individual researchers and smaller companies are able to build derivative LLMs based on these open-sourced models at much lower costs. However, this practice opens up possibilities for unauthorized use or reproduction that may not comply with licensing agreements, and fine-tuning can change the model’s behavior, thus complicating the determination of model ownership. Current intellectual property (IP) protection schemes for LLMs are either designed for white-box settings or require additional modifications to the original model, which restricts their use in real-world settings. In this paper, we propose ProFLingo, a black-box fingerprinting-based IP protection scheme for LLMs. ProFLingo generates queries that elicit specific responses from an original model, thereby establishing unique fingerprints. Our scheme assesses the effectiveness of these queries on a suspect model to determine whether it has been derived from the original model. ProFLingo offers a non-invasive approach, which neither requires knowledge of the suspect model nor modifications to the base model or its training process. To the best of our knowledge, our method represents the first black-box fingerprinting technique for IP protection for LLMs. Our source code and generated queries are available at: https://github.com/hengvt/ProFLingo.

arxiv情報

著者 Heng Jin,Chaoyu Zhang,Shanghao Shi,Wenjing Lou,Y. Thomas Hou
発行日 2024-06-26 16:22:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CR, cs.LG パーマリンク