Improving Logits-based Detector without Logits from Black-box LLMs

要約

Large Language Model (LLM) の出現により、テキスト生成に革命が起こり、人間の書き込みを忠実に模倣した出力が生成されます。
機械が書いたテキストと人間が書いたテキストの間のこの境界線の曖昧さは、一方を他方から区別する際に新たな課題を引き起こしており、主要なプロプライエタリ LLM の頻繁な更新と閉鎖的な性質によってタスクはさらに複雑化しています。
従来のロジットベースの検出方法は、ブラックボックス LLM から正確なロジットが入手できない場合に、LLM で生成されたコンテンツを識別するためにサロゲート モデルを活用します。
ただし、これらの方法では、サロゲート モデルと非公開のターゲット モデルの分布間の不整合に対処する必要があり、特に新しいクローズド ソース モデルの導入によるパフォーマンスの低下につながります。
さらに、現在の方法論は一般に、ソース モデルが特定されている場合には効果的ですが、モデルのバージョンが不明な場合や、テスト セットがさまざまなソース モデルからの出力で構成されている場合にはうまくいきません。
これらの制限に対処するために、ソース LLM からのロジットがなくてもブラックボックス テキスト検出における最先端のパフォーマンスを再定義する革新的なフレームワークである Distribution-Aligned LLM Detection (DALD) を紹介します。
DALD は、サロゲート モデルの分布を未知のターゲット LLM の分布と一致させるように設計されており、最小限のトレーニング投資で、強化された検出機能と急速なモデル反復に対する回復力を確保します。
ChatGPT、GPT-4、Claude-3 などの高度なモデルの公的にアクセス可能な出力からのコーパス サンプルを活用することで、DALD はサロゲート モデルを微調整し、未知のソース モデル配布と効果的に同期します。

要約(オリジナル)

The advent of Large Language Models (LLMs) has revolutionized text generation, producing outputs that closely mimic human writing. This blurring of lines between machine- and human-written text presents new challenges in distinguishing one from the other a task further complicated by the frequent updates and closed nature of leading proprietary LLMs. Traditional logits-based detection methods leverage surrogate models for identifying LLM-generated content when the exact logits are unavailable from black-box LLMs. However, these methods grapple with the misalignment between the distributions of the surrogate and the often undisclosed target models, leading to performance degradation, particularly with the introduction of new, closed-source models. Furthermore, while current methodologies are generally effective when the source model is identified, they falter in scenarios where the model version remains unknown, or the test set comprises outputs from various source models. To address these limitations, we present Distribution-Aligned LLMs Detection (DALD), an innovative framework that redefines the state-of-the-art performance in black-box text detection even without logits from source LLMs. DALD is designed to align the surrogate model’s distribution with that of unknown target LLMs, ensuring enhanced detection capability and resilience against rapid model iterations with minimal training investment. By leveraging corpus samples from publicly accessible outputs of advanced models such as ChatGPT, GPT-4 and Claude-3, DALD fine-tunes surrogate models to synchronize with unknown source model distributions effectively.

arxiv情報

著者 Cong Zeng,Shengkun Tang,Xianjun Yang,Yuanzhou Chen,Yiyou Sun,zhiqiang xu,Yao Li,Haifeng Chen,Wei Cheng,Dongkuan Xu
発行日 2024-06-11 16:41:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク