要約
広く利用可能な強力な LLM の出現により、大規模な言語モデル (LLM) によって生成される偽情報が大きな懸念事項になっています。
歴史的に、LLM 検出器はソリューションとして宣伝されてきましたが、現実世界での有効性はまだ証明されていません。
このペーパーでは、情報操作における重要な設定、つまり、中程度に高度な攻撃者によって生成される短いニュースのような投稿に焦点を当てます。
私たちは、既存の LLM 検出器が、ゼロショットであろうと、目的に合わせて訓練されたものであろうと、その設定で実際に使用する準備ができていないことを実証します。
テストされたすべてのゼロショット検出器は、以前のベンチマークと一貫性のないパフォーマンスを示し、サンプリング温度の上昇に対して非常に脆弱であり、最近のベンチマークには存在しなかった些細な攻撃です。
LLM や目に見えない攻撃全体を一般化する、目的に合わせて訓練された検出器を開発することは可能ですが、人間が書いた新しいテキストに一般化することはできません。
私たちは、前者はドメイン固有のベンチマークが必要であることを示し、後者は敵対的回避の回復力と参照人間のテキストへの過剰適合の間のトレードオフを示唆しており、どちらもベンチマークでの評価が必要であるが、現在は評価されていないと主張します。
これは、現在の LLM 検出器ベンチマーク アプローチの再検討を示唆しており、それを可能にする動的に拡張可能なベンチマークを提供すると考えられます (https://github.com/Reliable-Information-Lab-HEVS/benchmark_llm_texts_detection)。
要約(オリジナル)
With the emergence of widely available powerful LLMs, disinformation generated by large Language Models (LLMs) has become a major concern. Historically, LLM detectors have been touted as a solution, but their effectiveness in the real world is still to be proven. In this paper, we focus on an important setting in information operations — short news-like posts generated by moderately sophisticated attackers. We demonstrate that existing LLM detectors, whether zero-shot or purpose-trained, are not ready for real-world use in that setting. All tested zero-shot detectors perform inconsistently with prior benchmarks and are highly vulnerable to sampling temperature increase, a trivial attack absent from recent benchmarks. A purpose-trained detector generalizing across LLMs and unseen attacks can be developed, but it fails to generalize to new human-written texts. We argue that the former indicates domain-specific benchmarking is needed, while the latter suggests a trade-off between the adversarial evasion resilience and overfitting to the reference human text, with both needing evaluation in benchmarks and currently absent. We believe this suggests a re-consideration of current LLM detector benchmarking approaches and provides a dynamically extensible benchmark to allow it (https://github.com/Reliable-Information-Lab-HEVS/benchmark_llm_texts_detection).
arxiv情報
著者 | Henrique Da Silva Gameiro,Andrei Kucharavy,Ljiljana Dolamic |
発行日 | 2024-09-27 16:04:40+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google