Model Attribution in LLM-Generated Disinformation: A Domain Generalization Approach with Supervised Contrastive Learning

要約

LLM によって生成された偽情報のモデルの帰属は、その起源を理解し、その拡散を軽減する上で重大な課題を引き起こします。
最新の大規模言語モデル (LLM) は人間のような品質の偽情報を生成するため、この作業は特に困難です。
さらに、偽情報の生成に使用される誘導方法が多様であるため、正確な情報源の特定が困難になります。
これらの方法では、モデルの基本的な特性をマスクする可能性があるドメイン固有の機能が導入されます。
この論文では、各プロンプト方法が固有のドメインを表すドメイン一般化問題としてモデル属性の概念を導入します。
私たちは、効果的なアトリビューション モデルは、これらのドメイン固有の特徴に対して不変でなければならないと主張します。
また、現実世界の検出の課題を反映して、すべてのシナリオにわたって元のモデルを特定することに熟練している必要があります。
これに対処するために、教師あり対照学習に基づく新しいアプローチを導入します。
この方法は、プロンプトの変動に対するモデルの堅牢性を強化するように設計されており、異なるソース LLM を区別することに重点を置いています。
「オープンエンド」、「書き換え」、「言い換え」という 3 つの一般的なプロンプト方法と、「llama 2」、「chatgpt」という 3 つの高度な LLM を使用した厳密な実験を通じてモデルを評価します。
』と『ビキューナ』。
私たちの結果は、モデル アトリビューション タスクにおけるアプローチの有効性を実証し、多様で未知のデータセットにわたって最先端のパフォーマンスを達成しています。

要約(オリジナル)

Model attribution for LLM-generated disinformation poses a significant challenge in understanding its origins and mitigating its spread. This task is especially challenging because modern large language models (LLMs) produce disinformation with human-like quality. Additionally, the diversity in prompting methods used to generate disinformation complicates accurate source attribution. These methods introduce domain-specific features that can mask the fundamental characteristics of the models. In this paper, we introduce the concept of model attribution as a domain generalization problem, where each prompting method represents a unique domain. We argue that an effective attribution model must be invariant to these domain-specific features. It should also be proficient in identifying the originating models across all scenarios, reflecting real-world detection challenges. To address this, we introduce a novel approach based on Supervised Contrastive Learning. This method is designed to enhance the model’s robustness to variations in prompts and focuses on distinguishing between different source LLMs. We evaluate our model through rigorous experiments involving three common prompting methods: “open-ended”, “rewriting”, and “paraphrasing”, and three advanced LLMs: “llama 2”, “chatgpt”, and “vicuna”. Our results demonstrate the effectiveness of our approach in model attribution tasks, achieving state-of-the-art performance across diverse and unseen datasets.

arxiv情報

著者 Alimohammad Beigi,Zhen Tan,Nivedh Mudiam,Canyu Chen,Kai Shu,Huan Liu
発行日 2024-08-14 08:10:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク