要約
最近、大規模言語モデル (LLM) から生成されたテキストの検出を対象とした共有タスクが数多く存在します。
ただし、これらの共有タスクは、テキストが 1 つの特定のドメインに限定されている場合、またはテキストが多数のドメインからのものである可能性があり、その一部はテスト中に表示されない可能性がある場合のいずれかに焦点を当てる傾向があります。
この共有タスクでは、新しくリリースされた RAID ベンチマークを使用して、モデルが、トレーニング中に確認される多数の、しかし固定された数のドメインと LLM から生成されたテキストを検出できるかどうかに答えることを目的としています。
3 か月にわたって、私たちのタスクは 9 チームによって試みられ、23 件の検出器が提出されました。
複数の参加者が、誤検知率 5% を維持しながら、RAID からの機械生成テキストに対して 99% 以上の精度を得ることができたことがわかりました。これは、検出器が多くのドメインやモデルからのテキストを同時に確実に検出できることを示唆しています。
この結果の潜在的な解釈について議論し、今後の研究の方向性を示します。
要約(オリジナル)
Recently there have been many shared tasks targeting the detection of generated text from Large Language Models (LLMs). However, these shared tasks tend to focus either on cases where text is limited to one particular domain or cases where text can be from many domains, some of which may not be seen during test time. In this shared task, using the newly released RAID benchmark, we aim to answer whether or not models can detect generated text from a large, yet fixed, number of domains and LLMs, all of which are seen during training. Over the course of three months, our task was attempted by 9 teams with 23 detector submissions. We find that multiple participants were able to obtain accuracies of over 99% on machine-generated text from RAID while maintaining a 5% False Positive Rate — suggesting that detectors are able to robustly detect text from many domains and models simultaneously. We discuss potential interpretations of this result and provide directions for future research.
arxiv情報
著者 | Liam Dugan,Andrew Zhu,Firoj Alam,Preslav Nakov,Marianna Apidianaki,Chris Callison-Burch |
発行日 | 2025-01-15 16:21:09+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google