HC3 Plus: A Semantic-Invariant Human ChatGPT Comparison Corpus


ChatGPT はその優れたパフォーマンスにより大きな関心を集めていますが、人々はその潜在的なリスク、特に訓練を受けていない人間が特定するのが難しい AI 生成コンテンツ (AIGC) の検出に関してますます懸念を抱いています。
ChatGPT で生成されたテキストの検出に利用されている現在のデータセットは主に質問応答を中心としていますが、要約、翻訳、言い換えなどの意味的に不変の特性を持つタスクは無視される傾向があります。
前回の成功を受けて、T\textit{k}-instruct の微調整をさらに指示し、より強力な検出システムを構築します。


ChatGPT has gained significant interest due to its impressive performance, but people are increasingly concerned about its potential risks, particularly around the detection of AI-generated content (AIGC), which is often difficult for untrained humans to identify. Current datasets utilized for detecting ChatGPT-generated text primarily center around question-answering, yet they tend to disregard tasks that possess semantic-invariant properties, such as summarization, translation, and paraphrasing. Our primary studies demonstrate that detecting model-generated text on semantic-invariant tasks is more difficult. To fill this gap, we introduce a more extensive and comprehensive dataset that considers more types of tasks than previous work, including semantic-invariant tasks. In addition, the model after a large number of task instruction fine-tuning shows a strong powerful performance. Owing to its previous success, we further instruct fine-tuning T\textit{k}-instruct and build a more powerful detection system.


著者 Zhenpeng Su,Xing Wu,Wei Zhou,Guangyuan Ma,Songlin Hu
発行日 2024-01-26 04:25:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク