要約
証拠強化型検出器は、関連する証拠を含む悪意のあるソーシャル テキストを識別する際に優れた能力を発揮します。
ただし、大規模言語モデル (LLM) の台頭により、検出器を混乱させる証拠汚染の潜在的なリスクが生じています。
このペーパーでは、証拠を操作し、基本的な汚染を含む潜在的な悪用シナリオをシミュレートし、LLM によって証拠を言い換えまたは生成する方法を検討します。
その悪影響を軽減するために、機械生成テキスト検出、専門家の混合、パラメータ更新を含む、データとモデルの両方の側面から 3 つの防御戦略を提案します。
10 個のデータセットを使用した 4 つの悪意のあるソーシャル テキスト検出タスクに関する広範な実験により、証拠の汚染、特に生成戦略が既存の検出器を大きく損なうことが示されました。
一方で、防衛戦略は証拠汚染を軽減する可能性があるが、注釈付きデータの必要性や莫大な推論コストなど、実用化には限界に直面していた。
さらなる分析により、汚染された証拠は高品質であり、モデルのキャリブレーションを損ない、アンサンブルによって悪影響が増幅される可能性があることが示されています。
要約(オリジナル)
Evidence-enhanced detectors present remarkable abilities in identifying malicious social text with related evidence. However, the rise of large language models (LLMs) brings potential risks of evidence pollution to confuse detectors. This paper explores how to manipulate evidence, simulating potential misuse scenarios including basic pollution, and rephrasing or generating evidence by LLMs. To mitigate its negative impact, we propose three defense strategies from both the data and model sides, including machine-generated text detection, a mixture of experts, and parameter updating. Extensive experiments on four malicious social text detection tasks with ten datasets present that evidence pollution, especially the generate strategy, significantly compromises existing detectors. On the other hand, the defense strategies could mitigate evidence pollution, but they faced limitations for practical employment, such as the need for annotated data and huge inference costs. Further analysis illustrates that polluted evidence is of high quality, would compromise the model calibration, and could ensemble to amplify the negative impact.
arxiv情報
著者 | Herun Wan,Minnan Luo,Zhixiong Su,Guang Dai,Xiang Zhao |
発行日 | 2024-10-16 14:17:53+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google