Towards a Robust Detection of Language Model Generated Text: Is ChatGPT that Easy to Detect?

要約

自然言語処理 (NLP) の最近の進歩により、ChatGPT などの大規模言語モデル (LLM) が開発されました。
この論文では、ドメイン外データおよび一般的な攻撃スキームに対する ChatGPT 検出器の堅牢性の調査に焦点を当て、フランス語テキスト用の ChatGPT 検出器を開発および評価するための方法論を提案します。
提案された方法には、英語のデータセットをフランス語に翻訳し、翻訳されたデータで分類器をトレーニングすることが含まれます。
結果は、検出器が、ドメイン内設定での基本的な攻撃手法に対してある程度の堅牢性を備えて、ChatGPT で生成されたテキストを効果的に検出できることを示しています。
ただし、ドメイン外のコンテキストでは脆弱性が明らかであり、敵対的なテキストを検出するという課題が浮き彫りになっています。
この研究では、ドメイン内テストの結果をさまざまなコンテンツに適用する場合には注意が必要であると強調しています。
翻訳されたデータセットとモデルをオープンソース リソースとして提供します。
https://gitlab.inria.fr/wantoun/robust-chatgpt-detection

要約(オリジナル)

Recent advances in natural language processing (NLP) have led to the development of large language models (LLMs) such as ChatGPT. This paper proposes a methodology for developing and evaluating ChatGPT detectors for French text, with a focus on investigating their robustness on out-of-domain data and against common attack schemes. The proposed method involves translating an English dataset into French and training a classifier on the translated data. Results show that the detectors can effectively detect ChatGPT-generated text, with a degree of robustness against basic attack techniques in in-domain settings. However, vulnerabilities are evident in out-of-domain contexts, highlighting the challenge of detecting adversarial text. The study emphasizes caution when applying in-domain testing results to a wider variety of content. We provide our translated datasets and models as open-source resources. https://gitlab.inria.fr/wantoun/robust-chatgpt-detection

arxiv情報

著者 Wissam Antoun,Virginie Mouilleron,Benoît Sagot,Djamé Seddah
発行日 2023-06-09 13:03:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク