Online Detecting LLM-Generated Texts via Sequential Hypothesis Testing by Betting

要約

機械が生成したテキストと人間が書いたテキストを区別するアルゴリズムの開発は、近年大きな注目を集めています。
この方向の既存の方法は、通常、実際のテキストと機械生成されたテキストが混在するデータセットが事前に与えられるオフライン設定に関係しており、そのタスクはデータセット内の各サンプルが大規模言語モデル (LLM) からのものであるか、または言語モデルからのものであるかを判断することです。
人間。
ただし、実際の多くのシナリオでは、ニュース Web サイト、ソーシャル メディア アカウント、または他のフォーラムなどのソースがストリーミング形式でコンテンツを公開します。
したがって、このオンライン シナリオでは、これらのメディアやプラットフォームが効果的に機能し、誤った情報の拡散やその他の LLM の潜在的な悪用を防ぐためには、ソースが強力な統計的保証を備えた LLM であるかどうかを迅速かつ正確に判断する方法が重要です。
オンライン検出の問題に取り組むために、私たちは、既存のオフライン検出技術に基づいて構築し補完するだけでなく、制御された誤検知率と予想時間を含む統計的保証も享受できる、賭けによる逐次仮説テストの技術に基づいたアルゴリズムを開発しました。
ソースを LLM として正しく識別します。
私たちの方法の有効性を実証するために実験が行われました。

要約(オリジナル)

Developing algorithms to differentiate between machine-generated texts and human-written texts has garnered substantial attention in recent years. Existing methods in this direction typically concern an offline setting where a dataset containing a mix of real and machine-generated texts is given upfront, and the task is to determine whether each sample in the dataset is from a large language model (LLM) or a human. However, in many practical scenarios, sources such as news websites, social media accounts, or on other forums publish content in a streaming fashion. Therefore, in this online scenario, how to quickly and accurately determine whether the source is an LLM with strong statistical guarantees is crucial for these media or platforms to function effectively and prevent the spread of misinformation and other potential misuse of LLMs. To tackle the problem of online detection, we develop an algorithm based on the techniques of sequential hypothesis testing by betting that not only builds upon and complements existing offline detection techniques but also enjoys statistical guarantees, which include a controlled false positive rate and the expected time to correctly identify a source as an LLM. Experiments were conducted to demonstrate the effectiveness of our method.

arxiv情報

著者 Can Chen,Jun-Kun Wang
発行日 2024-10-29 17:55:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク