Feature-Level Insights into Artificial Text Detection with Sparse Autoencoders

要約

高度な大手言語モデル(LLMS)の台頭により、人工テキスト検出(ATD)がますます重要になっています。
多くの努力にもかかわらず、異なるタイプの目に見えないテキストで一貫してうまく機能する単一のアルゴリズムはありません。また、新しいLLMへの効果的な一般化を保証します。
解釈性は、この目標を達成する上で重要な役割を果たします。
この研究では、Sparse Autoencoders(SAE)を使用してGemma-2-2Bの残留ストリームから特徴を抽出することにより、ATDの解釈性を向上させます。
解釈可能な機能と効率的な機能の両方を特定し、ドメインおよびモデル固有の統計、ステアリングアプローチ、および手動またはLLMベースの解釈を介したセマンティクスと関連性を分析します。
私たちの方法は、さまざまなモデルからのテキストが人間が作成したコンテンツとどのように異なるかについての貴重な洞察を提供します。
モダンLLMは、特に情報密度の高いドメインでは、個別のプロンプトを使用して人間のような出力を生成できるにもかかわらず、明確なライティングスタイルを持っていることを示しています。

要約(オリジナル)

Artificial Text Detection (ATD) is becoming increasingly important with the rise of advanced Large Language Models (LLMs). Despite numerous efforts, no single algorithm performs consistently well across different types of unseen text or guarantees effective generalization to new LLMs. Interpretability plays a crucial role in achieving this goal. In this study, we enhance ATD interpretability by using Sparse Autoencoders (SAE) to extract features from Gemma-2-2b residual stream. We identify both interpretable and efficient features, analyzing their semantics and relevance through domain- and model-specific statistics, a steering approach, and manual or LLM-based interpretation. Our methods offer valuable insights into how texts from various models differ from human-written content. We show that modern LLMs have a distinct writing style, especially in information-dense domains, even though they can produce human-like outputs with personalized prompts.

arxiv情報

著者 Kristian Kuznetsov,Laida Kushnareva,Polina Druzhinina,Anton Razzhigaev,Anastasia Voznyuk,Irina Piontkovskaya,Evgeny Burnaev,Serguei Barannikov
発行日 2025-03-05 15:33:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク