Benchmarking of LLM Detection: Comparing Two Competing Approaches

要約

この記事では、LLM テキスト認識の分野の概要を説明します。
LLM で生成されたテキストを認識するためのさまざまなアプローチと実装された検出器が紹介されています。
この記事では、実装について説明することに加えて、検出器のベンチマークに焦点を当てています。
ChatGPT のような LLM を中心に、LLM で生成されたテキストを認識するためのソフトウェア製品は多数ありますが、認識の品質 (認識率) は明らかではありません。
さらに、新しいアプローチを提示する科学的貢献が他のアプローチとの何らかの比較を試みていることがわかりますが、評価データセットの構築と独立性は理解できないことがよくあります。
その結果、ベンチマーク データセットの違いにより、LLM 検出器のパフォーマンス評価に不一致が見られることがよくあります。
この記事では、評価データセットの作成について説明し、このデータセットを使用してさまざまな検出器を調査します。
選択した検出器は相互にベンチマークされます。

要約(オリジナル)

This article gives an overview of the field of LLM text recognition. Different approaches and implemented detectors for the recognition of LLM-generated text are presented. In addition to discussing the implementations, the article focuses on benchmarking the detectors. Although there are numerous software products for the recognition of LLM-generated text, with a focus on ChatGPT-like LLMs, the quality of the recognition (recognition rate) is not clear. Furthermore, while it can be seen that scientific contributions presenting their novel approaches strive for some kind of comparison with other approaches, the construction and independence of the evaluation dataset is often not comprehensible. As a result, discrepancies in the performance evaluation of LLM detectors are often visible due to the different benchmarking datasets. This article describes the creation of an evaluation dataset and uses this dataset to investigate the different detectors. The selected detectors are benchmarked against each other.

arxiv情報

著者 Thorsten Pröhl,Erik Putzier,Rüdiger Zarnekow
発行日 2024-06-17 15:51:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク