Forging the Forger: An Attempt to Improve Authorship Verification via Data Augmentation

要約

著者証明 (AV) は、候補テキストが特定の 1 人の著者によって書かれたのか、それとも他の誰かによって書かれたのかを推測することに関係するテキスト分類タスクです。
多くの AV システムは、敵対的攻撃に対して脆弱であることがわかっています。この攻撃では、悪意のある作成者が、自分の書き方を隠したり、別の作成者のスタイルを模倣したりして、分類子を積極的に騙そうとします。
この論文では、(負の) 合成例を使用して分類器トレーニング セットを強化することの潜在的な利点を調査します。
これらの合成例は、対象の著者のスタイルを模倣するために生成されます。
我々は、この拡張が敵対的設定における AV タスクにもたらす分類器予測の改善を分析します。
特に、3 つの異なるジェネレーター アーキテクチャ (1 つはリカレント ニューラル ネットワークに基づくもの、もう 1 つは小規模トランスフォーマーに基づくもの、もう 1 つは一般的な GPT モデルに基づくもの) と 2 つのトレーニング戦略 (1 つは標準の言語モデルからインスピレーションを得たもの、もう 1 つは一般的な GPT モデルに基づくもの) を試しています。
Wasserstein Generative Adversarial Networks からインスピレーションを受けています)。
5 つのデータセット (そのうちの 3 つは敵対的な設定を表すために特別に収集されたもの) と AV 分類器の 2 つの学習アルゴリズム (サポート ベクター マシンと畳み込みニューラル ネットワーク) を使用して仮説を評価します。
この実験は否定的な結果をもたらし、私たちの方法論は多くの敵対的な状況で効果的であることが証明されているものの、その利点は実用的な応用としては散発的すぎることが明らかになりました。

要約(オリジナル)

Authorship Verification (AV) is a text classification task concerned with inferring whether a candidate text has been written by one specific author or by someone else. It has been shown that many AV systems are vulnerable to adversarial attacks, where a malicious author actively tries to fool the classifier by either concealing their writing style, or by imitating the style of another author. In this paper, we investigate the potential benefits of augmenting the classifier training set with (negative) synthetic examples. These synthetic examples are generated to imitate the style of the author of interest. We analyze the improvements in classifier prediction that this augmentation brings to bear in the task of AV in an adversarial setting. In particular, we experiment with three different generator architectures (one based on Recurrent Neural Networks, another based on small-scale transformers, and another based on the popular GPT model) and with two training strategies (one inspired by standard Language Models, and another inspired by Wasserstein Generative Adversarial Networks). We evaluate our hypothesis on five datasets (three of which have been specifically collected to represent an adversarial setting) and using two learning algorithms for the AV classifier (Support Vector Machines and Convolutional Neural Networks). This experimentation has yielded negative results, revealing that, although our methodology proves effective in many adversarial settings, its benefits are too sporadic for a pragmatical application.

arxiv情報

著者 Silvia Corbara,Alejandro Moreo
発行日 2024-10-29 13:01:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク