DIS-CO: Discovering Copyrighted Content in VLMs Training Data

要約

トレーニングデータに直接アクセスすることなく、著作権で保護されたコンテンツを使用して大規模なビジョン言語モデル(VLM)をトレーニングするために使用されたかどうかを確認するにはどうすればよいですか?
VLMがトレーニングコーパスの画像を認識できるという仮説に動機付けられているため、モデルの開発中に著作権で保護されたコンテンツを含めることを推測するための新しいアプローチであるDIS-COを提案します。
ターゲットを絞った著作権で保護された素材から特定のフレームを使用してVLMを繰り返しクエリすることにより、DIS-COはフリーフォームテキストの完成を通じてコン​​テンツのIDを抽出します。
その有効性を評価するために、モデルのトレーニングカットオフの前後でリリースされたフィルムから描かれた詳細なキャプションとペアになった14,000フレームを含むベンチマークであるMovietectionを紹介します。
我々の結果は、DIS-COが検出パフォーマンスを大幅に改善し、ロジットを使用してモデルで最良の最適な方法の平均AUCをほぼ2倍にすることを示しています。
私たちの調査結果は、より広範な懸念も強調しています。すべてのテストされたモデルは、著作権で保護されたコンテンツにある程度さらされているようです。
私たちのコードとデータは、https://github.com/avduarte333/dis-coで入手できます

要約(オリジナル)

How can we verify whether copyrighted content was used to train a large vision-language model (VLM) without direct access to its training data? Motivated by the hypothesis that a VLM is able to recognize images from its training corpus, we propose DIS-CO, a novel approach to infer the inclusion of copyrighted content during the model’s development. By repeatedly querying a VLM with specific frames from targeted copyrighted material, DIS-CO extracts the content’s identity through free-form text completions. To assess its effectiveness, we introduce MovieTection, a benchmark comprising 14,000 frames paired with detailed captions, drawn from films released both before and after a model’s training cutoff. Our results show that DIS-CO significantly improves detection performance, nearly doubling the average AUC of the best prior method on models with logits available. Our findings also highlight a broader concern: all tested models appear to have been exposed to some extent to copyrighted content. Our code and data are available at https://github.com/avduarte333/DIS-CO

arxiv情報

著者 André V. Duarte,Xuandong Zhao,Arlindo L. Oliveira,Lei Li
発行日 2025-02-24 17:36:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG, I.2 パーマリンク