要約
人間が生成したテキストとモデルが生成したテキストは、言語の尤度の大きさを調べることで区別できます。
しかし、人間のようなテキストを生成する言語モデルの機能が進化し続けるにつれて、それはますます困難になりつつあります。
この研究は、絶対的な尤度の代わりに相対的な尤度値を使用し、人間モデルのテキスト検出タスクの尤度のスペクトルビューから有用な特徴を抽出することにより、新しい視点を提供します。
我々は、それぞれ教師ありとヒューリスティックベースの 2 つの分類方法を使用した検出手順を提案します。これにより、以前のゼロショット検出方法および短文検出に関する新しい最先端の方法と競合するパフォーマンスが得られます。
私たちの方法は、心理言語学の研究に理論的ルーツがあると考えられる、人間の言語とモデル言語の間の微妙な違いを明らかにすることもできます。
私たちのコードは https://github.com/CLCS-SUSTech/FourierGPT で入手できます。
要約(オリジナル)
Human and model-generated texts can be distinguished by examining the magnitude of likelihood in language. However, it is becoming increasingly difficult as language model’s capabilities of generating human-like texts keep evolving. This study provides a new perspective by using the relative likelihood values instead of absolute ones, and extracting useful features from the spectrum-view of likelihood for the human-model text detection task. We propose a detection procedure with two classification methods, supervised and heuristic-based, respectively, which results in competitive performances with previous zero-shot detection methods and a new state-of-the-art on short-text detection. Our method can also reveal subtle differences between human and model languages, which find theoretical roots in psycholinguistics studies. Our code is available at https://github.com/CLCS-SUSTech/FourierGPT
arxiv情報
著者 | Yang Xu,Yu Wang,Hao An,Zhichen Liu,Yongyuan Li |
発行日 | 2024-06-28 12:28:52+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google