HC3 Plus: A Semantic-Invariant Human ChatGPT Comparison Corpus

要約

ChatGPT は、その印象的なパフォーマンスにより大きな関心を集めています。
しかし、その潜在的なリスク、特に訓練を受けていない個人が識別するのが難しい AI 生成コンテンツ (AIGC) の検出における懸念が高まっています。
ChatGPT で生成されたテキストの検出に使用されている現在のデータセットは、主に質問に答えるタスクに焦点を当てており、要約、翻訳、言い換えなどの意味的に不変の特性を持つタスクが見落とされていることがよくあります。
この論文では、意味的に不変なタスクにおいてモデル生成テキストを検出することはより困難であることを実証します。
このギャップに対処するために、意味的に不変のプロパティを含む、以前の研究よりも幅広いタスクを組み込んだ、より広範で包括的なデータセットを導入します。

要約(オリジナル)

ChatGPT has garnered significant interest due to its impressive performance; however, there is growing concern about its potential risks, particularly in the detection of AI-generated content (AIGC), which is often challenging for untrained individuals to identify. Current datasets used for detecting ChatGPT-generated text primarily focus on question-answering tasks, often overlooking tasks with semantic-invariant properties, such as summarization, translation, and paraphrasing. In this paper, we demonstrate that detecting model-generated text in semantic-invariant tasks is more challenging. To address this gap, we introduce a more extensive and comprehensive dataset that incorporates a wider range of tasks than previous work, including those with semantic-invariant properties.

arxiv情報

著者 Zhenpeng Su,Xing Wu,Wei Zhou,Guangyuan Ma,Songlin Hu
発行日 2024-08-28 15:40:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク