J-Guard: Journalism Guided Adversarially Robust Detection of AI-generated News

要約

AI によって生成されたオンライン テキストの急速な普及により、情報の状況が大きく変わりつつあります。
AI によって生成されたさまざまな種類のテキストの中でも、AI によって生成されたニュースは、オンラインでの誤った情報の顕著な情報源となる可能性があるため、重大な脅威をもたらします。
最近のいくつかの取り組みは、一般的に AI によって生成されたテキストの検出に焦点を当てていますが、単純な敵対的攻撃に対する脆弱性に関する懸念を考慮すると、これらの方法には信頼性の向上が必要です。
さらに、ニュースの書き方には奇抜な点があるため、AI が生成したニュースにこれらの検出方法を適用すると誤検知が発生し、報道機関の評判を損なう可能性があります。
これらの課題に対処するために、私たちは学際的なチームの専門知識を活用して、既存の教師あり AI テキスト検出器を操作して、敵対者の堅牢性を高めながら AI 生成のニュースを検出できるフレームワーク J-Guard を開発しました。
J-Guard は、ジャーナリズムのユニークな属性からインスピレーションを得た文体の手がかりを組み込むことで、現実世界のジャーナリズムと AI が生成したニュース記事を効果的に区別します。
ChatGPT (GPT3.5) を含む膨大な AI モデルによって生成されたニュース記事に関する実験では、敵対的攻撃に直面した場合の平均パフォーマンス低下をわずか 7% に抑えながら、検出機能を強化する J-Guard の有効性を実証しました。

要約(オリジナル)

The rapid proliferation of AI-generated text online is profoundly reshaping the information landscape. Among various types of AI-generated text, AI-generated news presents a significant threat as it can be a prominent source of misinformation online. While several recent efforts have focused on detecting AI-generated text in general, these methods require enhanced reliability, given concerns about their vulnerability to simple adversarial attacks. Furthermore, due to the eccentricities of news writing, applying these detection methods for AI-generated news can produce false positives, potentially damaging the reputation of news organizations. To address these challenges, we leverage the expertise of an interdisciplinary team to develop a framework, J-Guard, capable of steering existing supervised AI text detectors for detecting AI-generated news while boosting adversarial robustness. By incorporating stylistic cues inspired by the unique journalistic attributes, J-Guard effectively distinguishes between real-world journalism and AI-generated news articles. Our experiments on news articles generated by a vast array of AI models, including ChatGPT (GPT3.5), demonstrate the effectiveness of J-Guard in enhancing detection capabilities while maintaining an average performance decrease of as low as 7% when faced with adversarial attacks.

arxiv情報

著者 Tharindu Kumarage,Amrita Bhattacharjee,Djordje Padejski,Kristy Roschke,Dan Gillmor,Scott Ruston,Huan Liu,Joshua Garland
発行日 2023-09-06 17:06:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク