SHIELD: Evaluation and Defense Strategies for Copyright Compliance in LLM Text Generation

要約

大規模言語モデル (LLM) は機械学習を変革しましたが、著作権を侵害するテキストを生成する可能性があるため、重大な法的懸念が生じ、その結果、いくつかの注目を集めた訴訟が引き起こされました。
法的な面では、生成されたテキストが著作権で保護された素材を盗用する可能性があるかどうかについての議論が続いており、こうした急速な進歩に追いつくのに苦労しています。
現在の LLM は、著作権を侵害したり、著作権で保護されていないテキストを過度に制限したりする可能性があり、次のような課題を引き起こしています。(i) 著作権への準拠を複数の側面から評価するための包括的な評価ベンチマークの必要性。
(ii) セーフガードバイパス攻撃に対する堅牢性を評価する。
(iii) 著作権で保護されたテキストの生成を対象とした効果的な防御策を開発する。
これらの課題に取り組むために、私たちは精選されたデータセットを導入して手法を評価し、攻撃戦略をテストし、著作権で保護されたテキストの生成を防止する軽量のリアルタイム防御を提案して、LLM の安全かつ合法的な使用を保証します。
私たちの実験では、現在の LLM は著作権で保護されたテキストを頻繁に出力し、脱獄攻撃により著作権で保護された出力の量が大幅に増加する可能性があることを示しています。
私たちが提案する防御メカニズムは、悪意のあるリクエストを効果的に拒否することで、LLM によって生成される著作権で保護されたテキストの量を大幅に削減します。
コードは https://github.com/xz-liu/SHIELD で公開されています。

要約(オリジナル)

Large Language Models (LLMs) have transformed machine learning but raised significant legal concerns due to their potential to produce text that infringes on copyrights, resulting in several high-profile lawsuits. The legal landscape is struggling to keep pace with these rapid advancements, with ongoing debates about whether generated text might plagiarize copyrighted materials. Current LLMs may infringe on copyrights or overly restrict non-copyrighted texts, leading to these challenges: (i) the need for a comprehensive evaluation benchmark to assess copyright compliance from multiple aspects; (ii) evaluating robustness against safeguard bypassing attacks; and (iii) developing effective defense targeted against the generation of copyrighted text. To tackle these challenges, we introduce a curated dataset to evaluate methods, test attack strategies, and propose lightweight, real-time defense to prevent the generation of copyrighted text, ensuring the safe and lawful use of LLMs. Our experiments demonstrate that current LLMs frequently output copyrighted text, and that jailbreaking attacks can significantly increase the volume of copyrighted output. Our proposed defense mechanism significantly reduces the volume of copyrighted text generated by LLMs by effectively refusing malicious requests. Code is publicly available at https://github.com/xz-liu/SHIELD

arxiv情報

著者 Xiaoze Liu,Ting Sun,Tianyang Xu,Feijie Wu,Cunxiang Wang,Xiaoqian Wang,Jing Gao
発行日 2024-08-21 11:57:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CY パーマリンク