要約
私たちは、大規模な言語モデルによって書かれたテキストと人間によって書かれたテキストを区別するように訓練されたトランスフォーマーベースのニューラル ネットワークである CheckforAI テキスト分類器を紹介します。
CheckforAI は、DetectGPT などのゼロショット手法や主要な商用 AI 検出ツールよりも優れたパフォーマンスを示し、10 個のテキスト ドメイン (学生の文章、創造的な文章、科学的文章、書籍、百科事典、ニュース、電子メール) で構成される包括的なベンチマークでエラー率が 9 倍以上低くなります。
、科学論文、短い形式の Q&A)、および 8 つのオープンソースおよびクローズドソースの大規模言語モデル。
私たちは、合成ミラーを使用したハード ネガティブ マイニングというトレーニング アルゴリズムを提案します。これにより、分類器はレビューなどの高データ ドメインで桁違いに低い誤検知率を達成できるようになります。
最後に、CheckforAI が英語を母国語としない話者に対して偏見を持たず、トレーニング中には見られなかったドメインやモデルに一般化していることを示します。
要約(オリジナル)
We present the CheckforAI text classifier, a transformer-based neural network trained to distinguish text written by large language models from text written by humans. CheckforAI outperforms zero-shot methods such as DetectGPT as well as leading commercial AI detection tools with over 9 times lower error rates on a comprehensive benchmark comprised of ten text domains (student writing, creative writing, scientific writing, books, encyclopedias, news, email, scientific papers, short-form Q&A) and 8 open- and closed-source large language models. We propose a training algorithm, hard negative mining with synthetic mirrors, that enables our classifier to achieve orders of magnitude lower false positive rates on high-data domains such as reviews. Finally, we show that CheckforAI is not biased against nonnative English speakers and generalizes to domains and models unseen during training.
arxiv情報
著者 | Bradley Emi,Max Spero |
発行日 | 2024-02-26 05:28:41+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google