PhantomHunter: Detecting Unseen Privately-Tuned LLM-Generated Text via Family-Aware Learning

要約

大規模な言語モデル(LLMS)の人気により、誤った情報生産や学問的不正行為などの望ましくない社会的問題はより深刻であり、LLM生成されたテキスト検出は今まで前例のない重要性を示しています。
既存の方法は驚くべき進歩を遂げていますが、個人的に調整されたLLMのテキストによって提起された新しい課題は、既知のままです。
ユーザーは、プライベートコーパスを使用してオープンソースを微調整することでプライベートLLMを簡単に所有でき、実際に既存の検出器が大幅に低下することがあります。
この問題に対処するために、目に見えない個人的に調整されたLLMからテキストを検出するために特化したLLM生成テキスト検出器であるPhantomhunterを提案します。
その家族を意識した学習フレームワークは、個々の特性を記憶するのではなく、ベースモデルとそのデリバティブ間で共有される家族レベルの特性を捉えています。
Llama、Gemma、およびMistralファミリーのデータに関する実験は、7つのベースラインと3つの産業サービスを超える優位性を示し、F1スコアは96%以上です。

要約(オリジナル)

With the popularity of large language models (LLMs), undesirable societal problems like misinformation production and academic misconduct have been more severe, making LLM-generated text detection now of unprecedented importance. Although existing methods have made remarkable progress, a new challenge posed by text from privately tuned LLMs remains underexplored. Users could easily possess private LLMs by fine-tuning an open-source one with private corpora, resulting in a significant performance drop of existing detectors in practice. To address this issue, we propose PhantomHunter, an LLM-generated text detector specialized for detecting text from unseen, privately-tuned LLMs. Its family-aware learning framework captures family-level traits shared across the base models and their derivatives, instead of memorizing individual characteristics. Experiments on data from LLaMA, Gemma, and Mistral families show its superiority over 7 baselines and 3 industrial services, with F1 scores of over 96%.

arxiv情報

著者 Yuhui Shi,Yehan Yang,Qiang Sheng,Hao Mi,Beizhe Hu,Chaoxi Xu,Juan Cao
発行日 2025-06-18 17:59:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CY パーマリンク