Explainability-Based Token Replacement on LLM-Generated Text

要約

生成モデル、特に大規模な言語モデル(LLM)は、人間のように見えるテキストの作成において顕著な進歩を示しています。
しかし、彼らはしばしば、人間によって書かれたテキストよりも出力を検出しやすくするパターンを示します。
この論文では、AI(XAI)メソッドを使用して、AI生成テキスト(AIGT)の検出可能性を低下させ、堅牢なアンサンブルベースの検出アプローチも導入する方法を調査します。
AIGTと人間が書かれたテキストを区別するためにアンサンブル分類器をトレーニングし、SHAPとLIMEを適用して、その予測に最も強く影響するトークンを特定します。
これらの影響力のあるトークンを変更するために、4つの説明可能性ベースのトークン置換戦略を提案します。
私たちの調査結果は、これらのトークン置換アプローチがAIGTを検出する単一の分類器の能力を大幅に減少させる可能性があることを示しています。
ただし、アンサンブル分類器は、複数の言語とドメインで強力なパフォーマンスを維持しており、マルチモデルアプローチがトークンレベルの操作の影響を軽減できることを示しています。
これらの結果は、XAIメソッドが最も影響力のあるトークンに焦点を合わせることでAIGTを検出するのを難しくすることを示しています。
同時に、彼らは、AIGTを隠すための進化するアプローチに適応できる堅牢でアンサンブルベースの検出戦略の必要性を強調しています。

要約(オリジナル)

Generative models, especially large language models (LLMs), have shown remarkable progress in producing text that appears human-like. However, they often exhibit patterns that make their output easier to detect than text written by humans. In this paper, we investigate how explainable AI (XAI) methods can be used to reduce the detectability of AI-generated text (AIGT) while also introducing a robust ensemble-based detection approach. We begin by training an ensemble classifier to distinguish AIGT from human-written text, then apply SHAP and LIME to identify tokens that most strongly influence its predictions. We propose four explainability-based token replacement strategies to modify these influential tokens. Our findings show that these token replacement approaches can significantly diminish a single classifier’s ability to detect AIGT. However, our ensemble classifier maintains strong performance across multiple languages and domains, showing that a multi-model approach can mitigate the impact of token-level manipulations. These results show that XAI methods can make AIGT harder to detect by focusing on the most influential tokens. At the same time, they highlight the need for robust, ensemble-based detection strategies that can adapt to evolving approaches for hiding AIGT.

arxiv情報

著者 Hadi Mohammadi,Anastasia Giachanou,Daniel L. Oberski,Ayoub Bagheri
発行日 2025-06-04 15:15:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク