要約
大規模言語モデル (LLM) の急速な進歩により、一貫性があり文脈に関連したテキストを生成する機能が大幅に強化されており、AI が生成したコンテンツの悪用に関する懸念が高まっており、その検出が重要になっています。
ただし、特に未知のドメインや馴染みのない LLM では、この作業は依然として困難です。
LLM ネクストトークン分布出力を活用すると、多様なコーパスに対するモデルの広範な事前トレーニングからの洞察がカプセル化されているため、理論的に魅力的な検出アプローチが提供されます。
その期待にもかかわらず、これらの出力を運用可能にしようとするゼロショット手法は、限られた成功しか収めていません。
問題の 1 つは、一部のトークンは当然予測しやすい、または予測しにくく、異なる重み付けをする必要がある場合に、トークン全体の次のトークンの分布メトリックを集計するために平均を使用することであると仮説を立てています。
この考えに基づいて、我々は、LLM の最後の隠れ状態と位置を使用して、シーケンス長全体にわたる次のトークンの分布からのメトリクスに基づいて一連の特徴の合計に重み付けを行うパープレキシティ アテンション加重ネットワーク (PAWN) を提案します。
ゼロショットではありませんが、私たちの方法では、最後の隠れ状態と次のトークンの分布メトリックをディスク上にキャッシュできるため、トレーニング リソースの要件が大幅に削減されます。
PAWN は、トレーニング可能なパラメータの一部を使用した最強のベースライン (微調整された LM) よりも、配信において競争力があり、さらに優れたパフォーマンスを示します。
また、私たちのモデルは、分布の変化全体にわたる決定境界の変動が小さくなり、目に見えないドメインとソースモデルをより適切に一般化します。
また、敵対的攻撃に対してより堅牢であり、バックボーンに多言語機能がある場合、教師ありトレーニング中には見られなかった言語に対して適切な一般化が行われ、LLaMA3-1B は 9 つの相互検証で平均マクロ平均 F1 スコア 81.46% に達しました。
言語。
要約(オリジナル)
The rapid advancement in large language models (LLMs) has significantly enhanced their ability to generate coherent and contextually relevant text, raising concerns about the misuse of AI-generated content and making it critical to detect it. However, the task remains challenging, particularly in unseen domains or with unfamiliar LLMs. Leveraging LLM next-token distribution outputs offers a theoretically appealing approach for detection, as they encapsulate insights from the models’ extensive pre-training on diverse corpora. Despite its promise, zero-shot methods that attempt to operationalize these outputs have met with limited success. We hypothesize that one of the problems is that they use the mean to aggregate next-token distribution metrics across tokens, when some tokens are naturally easier or harder to predict and should be weighted differently. Based on this idea, we propose the Perplexity Attention Weighted Network (PAWN), which uses the last hidden states of the LLM and positions to weight the sum of a series of features based on metrics from the next-token distribution across the sequence length. Although not zero-shot, our method allows us to cache the last hidden states and next-token distribution metrics on disk, greatly reducing the training resource requirements. PAWN shows competitive and even better performance in-distribution than the strongest baselines (fine-tuned LMs) with a fraction of their trainable parameters. Our model also generalizes better to unseen domains and source models, with smaller variability in the decision boundary across distribution shifts. It is also more robust to adversarial attacks, and if the backbone has multilingual capabilities, it presents decent generalization to languages not seen during supervised training, with LLaMA3-1B reaching a mean macro-averaged F1 score of 81.46% in cross-validation with nine languages.
arxiv情報
著者 | Pablo Miralles-González,Javier Huertas-Tato,Alejandro Martín,David Camacho |
発行日 | 2025-01-07 17:00:49+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google