Detecting Machine-Generated Texts by Multi-Population Aware Optimization for Maximum Mean Discrepancy

要約

ChatGPT などの大規模言語モデル (LLM) は、人間のようなテキストを生成する際に顕著なパフォーマンスを示しています。
ただし、機械生成テキスト (MGT) には、盗作の問題、誤解を招く情報、幻覚の問題など、重大なリスクが伴う可能性があります。
したがって、多くの状況において MGT を検出することは非常に緊急かつ重要です。
残念ながら、MGT と人間が書いたテキストを区別することは困難です。LLM の優れたパフォーマンスにより、それらの間の分布上の不一致は非常に微妙であることが多いためです。
この論文では、MMD が分布の不一致を適切に識別できるという意味で、\textit{最大平均不一致} (MMD) を利用してこの問題に対処しようとします。
ただし、さまざまな MGT を使用して MMD で検出器を直接トレーニングすると、MGT にはさまざまな LLM により \textit{複数のテキスト集団} が含まれる可能性があるため、MMD の分散が大幅に増加します。
これにより、2 つのサンプル間の差異を測定する MMD の機能が著しく損なわれます。
これに取り組むために、MMD-MP と呼ばれる新しい \textit{多母集団} を意識した MMD の最適化手法を提案します。これは \textit{分散の増加を回避}し、分布の不一致を測定するための安定性を向上させることができます。
MMD-MP に基づいて、段落ベースと文ベースの検出のための 2 つの方法をそれぞれ開発しました。
GPT2 や ChatGPT などのさまざまな LLM に関する広範な実験により、MMD-MP の優れた検出性能が示されました。
ソース コードは \url{https://github.com/ZSHsh98/MMD-MP} で入手できます。

要約(オリジナル)

Large language models (LLMs) such as ChatGPT have exhibited remarkable performance in generating human-like texts. However, machine-generated texts (MGTs) may carry critical risks, such as plagiarism issues, misleading information, or hallucination issues. Therefore, it is very urgent and important to detect MGTs in many situations. Unfortunately, it is challenging to distinguish MGTs and human-written texts because the distributional discrepancy between them is often very subtle due to the remarkable performance of LLMs. In this paper, we seek to exploit \textit{maximum mean discrepancy} (MMD) to address this issue in the sense that MMD can well identify distributional discrepancies. However, directly training a detector with MMD using diverse MGTs will incur a significantly increased variance of MMD since MGTs may contain \textit{multiple text populations} due to various LLMs. This will severely impair MMD’s ability to measure the difference between two samples. To tackle this, we propose a novel \textit{multi-population} aware optimization method for MMD called MMD-MP, which can \textit{avoid variance increases} and thus improve the stability to measure the distributional discrepancy. Relying on MMD-MP, we develop two methods for paragraph-based and sentence-based detection, respectively. Extensive experiments on various LLMs, \eg, GPT2 and ChatGPT, show superior detection performance of our MMD-MP. The source code is available at \url{https://github.com/ZSHsh98/MMD-MP}.

arxiv情報

著者 Shuhai Zhang,Yiliao Song,Jiahao Yang,Yuanqing Li,Bo Han,Mingkui Tan
発行日 2024-02-29 14:46:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク