Evaluating Copyright Takedown Methods for Language Models

要約

言語モデル (LM) は、著作権で保護されている可能性のある素材を含む、多様なデータに関する広範なトレーニングからその機能を導き出します。
これらのモデルはトレーニング データと同様のコンテンツを記憶して生成する可能性があるため、潜在的な懸念が生じます。
したがって、モデル作成者は、保護されたコンテンツの生成を防ぐ緩和方法を開発するよう動機付けられています。
私たちは、この手順を DMCA の削除と概念的に類似している (ただし、法的には区別されている) ことに注目して、LM の著作権削除と呼んでいます。 この文書では、LM の著作権削除の実現可能性と副作用の最初の評価を紹介します。
私たちは、著作権削除手法の有効性、暗唱が禁止されているトレーニング データから著作権のない事実の知識を保持するモデルの能力への影響、およびモデルがその一般的な有用性と効率性をどの程度維持しているかを評価するための評価フレームワークである CoTaEval を提案します。
システムプロンプトの追加、デコード時のフィルタリング介入、アンラーニングアプローチなど、いくつかの戦略を検討します。
私たちの調査結果は、すべての指標にわたって優れたテスト済みの手法はないことを示しており、このユニークな問題設定では研究の余地が大きいことを示し、実際の政策提案に対する潜在的な未解決の課題を示しています。

要約(オリジナル)

Language models (LMs) derive their capabilities from extensive training on diverse data, including potentially copyrighted material. These models can memorize and generate content similar to their training data, posing potential concerns. Therefore, model creators are motivated to develop mitigation methods that prevent generating protected content. We term this procedure as copyright takedowns for LMs, noting the conceptual similarity to (but legal distinction from) the DMCA takedown This paper introduces the first evaluation of the feasibility and side effects of copyright takedowns for LMs. We propose CoTaEval, an evaluation framework to assess the effectiveness of copyright takedown methods, the impact on the model’s ability to retain uncopyrightable factual knowledge from the training data whose recitation is embargoed, and how well the model maintains its general utility and efficiency. We examine several strategies, including adding system prompts, decoding-time filtering interventions, and unlearning approaches. Our findings indicate that no tested method excels across all metrics, showing significant room for research in this unique problem setting and indicating potential unresolved challenges for live policy proposals.

arxiv情報

著者 Boyi Wei,Weijia Shi,Yangsibo Huang,Noah A. Smith,Chiyuan Zhang,Luke Zettlemoyer,Kai Li,Peter Henderson
発行日 2024-10-11 17:42:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク