On the Detectability of ChatGPT Content: Benchmarking, Methodology, and Evaluation through the Lens of Academic Writing

要約

ChatGPT が注目を集める中、学術論文作成を支援するために大規模言語モデル (LLM) を利用することが、コミュニティでかなりの議論を引き起こしています。
この論文では、学術文献内での ChatGPT によって生成されたコンテンツの検出可能性に関する包括的な研究を、特に科学論文の要約に焦点を当てて提示し、学界における LLM アプリケーションとポリシーの将来の開発に総合的なサポートを提供することを目的としています。
具体的には、まず GPABench2 を紹介します。これは、コンピュータ サイエンス、物理学、人文社会科学における科学論文の人間が書いた要約、GPT が書いた要約、GPT で完成した要約、GPT で洗練された要約の 280 万件を超える比較サンプルからなるベンチマーク データセットです。
次に、ChatGPT コンテンツを検出する方法を検討します。
まず、既存の ChatGPT 検出ツールの不満足なパフォーマンスと、人間の評価者 (240 人以上の研究者または学生を含む) が直面する課題を調査します。
次に、手作りの言語特徴モデルをベースラインとしてテストし、ChatGPT で書かれた文献の微妙で深い意味論的および言語的パターンをより適切に捕捉するために CheckGPT という名前のディープ ニューラル フレームワークを開発します。
最後に、さまざまな分野にわたる各ベンチマーク タスクで提案された CheckGPT フレームワークを検証するための包括的な実験を実行します。
ChatGPT コンテンツの検出可能性を評価するために、CheckGPT の転送可能性、迅速なエンジニアリング、および堅牢性に関する広範な実験を実施します。

要約(オリジナル)

With ChatGPT under the spotlight, utilizing large language models (LLMs) to assist academic writing has drawn a significant amount of debate in the community. In this paper, we aim to present a comprehensive study of the detectability of ChatGPT-generated content within the academic literature, particularly focusing on the abstracts of scientific papers, to offer holistic support for the future development of LLM applications and policies in academia. Specifically, we first present GPABench2, a benchmarking dataset of over 2.8 million comparative samples of human-written, GPT-written, GPT-completed, and GPT-polished abstracts of scientific writing in computer science, physics, and humanities and social sciences. Second, we explore the methodology for detecting ChatGPT content. We start by examining the unsatisfactory performance of existing ChatGPT detecting tools and the challenges faced by human evaluators (including more than 240 researchers or students). We then test the hand-crafted linguistic features models as a baseline and develop a deep neural framework named CheckGPT to better capture the subtle and deep semantic and linguistic patterns in ChatGPT written literature. Last, we conduct comprehensive experiments to validate the proposed CheckGPT framework in each benchmarking task over different disciplines. To evaluate the detectability of ChatGPT content, we conduct extensive experiments on the transferability, prompt engineering, and robustness of CheckGPT.

arxiv情報

著者 Zeyan Liu,Zijun Yao,Fengjun Li,Bo Luo
発行日 2024-03-18 03:14:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CR, cs.LG パーマリンク