LLMs and Memorization: On Quality and Specificity of Copyright Compliance

要約

大規模言語モデル (LLM) での記憶に対する懸念が高まっています。
LLM は、著作権で保護された作品を含むトレーニング データの一部を簡単に複製することが示されています。
これは、既存の著作権法および欧州 AI 法に違反する可能性があるため、解決すべき重要な問題です。
この研究では、欧州法を例として使用して、LLM における潜在的な著作権侵害の範囲を定量化する体系的な分析を提案します。
以前の研究とは異なり、現実的なエンドユーザー シナリオで命令を微調整したモデルを評価します。
私たちの分析は、ドイツの著作権サービスプロバイダー法と、著作権を侵害している可能性のあるテキスト複製を識別するためのあいまいテキスト マッチング アルゴリズムから借用した 160 文字という提案されたしきい値に基づいて行われます。
著作権侵害に対する対策の特異性は、著作権で保護されたデータとパブリックドメインのデータに対するモデルの動作を比較することによって分析されます。
私たちは、保護されたテキスト (拒否や幻覚など) を生成する代わりにモデルがどのような行動を示すかを調査し、これらの行動の最初の法的評価を提供します。
一般的な LLM の間では、著作権への準拠、特異性、適切な拒否に大きな違いがあることがわかりました。
この比較では、Alpaca、GPT 4、GPT 3.5、および Luminous が最も優れたパフォーマンスを示し、OpenGPT-X、Alpaca、および Luminous は潜在的な著作権侵害の絶対数が特に低くなっています。
コードは近々公開される予定です。

要約(オリジナル)

Memorization in large language models (LLMs) is a growing concern. LLMs have been shown to easily reproduce parts of their training data, including copyrighted work. This is an important problem to solve, as it may violate existing copyright laws as well as the European AI Act. In this work, we propose a systematic analysis to quantify the extent of potential copyright infringements in LLMs using European law as an example. Unlike previous work, we evaluate instruction-finetuned models in a realistic end-user scenario. Our analysis builds on a proposed threshold of 160 characters, which we borrow from the German Copyright Service Provider Act and a fuzzy text matching algorithm to identify potentially copyright-infringing textual reproductions. The specificity of countermeasures against copyright infringement is analyzed by comparing model behavior on copyrighted and public domain data. We investigate what behaviors models show instead of producing protected text (such as refusal or hallucination) and provide a first legal assessment of these behaviors. We find that there are huge differences in copyright compliance, specificity, and appropriate refusal among popular LLMs. Alpaca, GPT 4, GPT 3.5, and Luminous perform best in our comparison, with OpenGPT-X, Alpaca, and Luminous producing a particularly low absolute number of potential copyright violations. Code will be published soon.

arxiv情報

著者 Felix B Mueller,Rebekka Görge,Anna K Bernzen,Janna C Pirk,Maximilian Poretschkin
発行日 2024-06-28 16:12:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, I.2.7 パーマリンク