Artificial Text Boundary Detection with Topological Data Analysis and Sliding Window Techniques

要約

テキスト生成モデルの急速な発展により、最初は人間によって書かれたテキストが、その後は大規模な言語モデルの機械生成結果として継続されるテキストに遭遇することがますます多くなってきています。
このようなテキストの人間が書いた部分と機械が生成した部分との間の境界を検出することは、文献ではあまり注目されていない非常に困難な問題です。
この研究では、この人為的なテキスト境界検出問題に対するさまざまなアプローチを検討および比較し、異なる性質の特徴についていくつかの予測子を比較します。
RoBERTa モデルの教師あり微調整は、一般にこのタスクではうまく機能しますが、重要なクロスドメインおよびクロスジェネレーター設定では一般化できず、データのスプリアスな特性に過剰適合する傾向があることを示します。
次に、凍結された言語モデルの埋め込みから抽出された特徴に基づいて、人間の精度レベルと、リアルまたはフェイク テキスト ベンチマークで以前に検討されたベースラインの両方を上回る新しいアプローチを提案します。
さらに、境界検出タスクにパープレキシティベースのアプローチを適用し、その動作を分析します。
私たちは、提案されたすべての分類器の堅牢性をクロスドメインおよびクロスモデル設定で分析し、人工テキスト境界検出アルゴリズムのパフォーマンスに悪影響を与える可能性のあるデータの重要な特性を発見します。

要約(オリジナル)

Due to the rapid development of text generation models, people increasingly often encounter texts that may start out as written by a human but then continue as machine-generated results of large language models. Detecting the boundary between human-written and machine-generated parts of such texts is a very challenging problem that has not received much attention in literature. In this work, we consider and compare a number of different approaches for this artificial text boundary detection problem, comparing several predictors over features of different nature. We show that supervised fine-tuning of the RoBERTa model works well for this task in general but fails to generalize in important cross-domain and cross-generator settings, demonstrating a tendency to overfit to spurious properties of the data. Then, we propose novel approaches based on features extracted from a frozen language model’s embeddings that are able to outperform both the human accuracy level and previously considered baselines on the Real or Fake Text benchmark. Moreover, we adapt perplexity-based approaches for the boundary detection task and analyze their behaviour. We analyze the robustness of all proposed classifiers in cross-domain and cross-model settings, discovering important properties of the data that can negatively influence the performance of artificial text boundary detection algorithms.

arxiv情報

著者 Laida Kushnareva,Tatiana Gaintseva,German Magai,Serguei Barannikov,Dmitry Abulkhanov,Kristian Kuznetsov,Irina Piontkovskaya,Sergey Nikolenko
発行日 2023-11-14 17:48:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク