要約
査読は、出版された科学研究の完全性を確保するための重要なプロセスです。
このプロセスの信頼性は、関連分野の専門家が出版のために提出された原稿のメリットを慎重に考慮しているという前提に基づいています。
最近の大規模言語モデル (LLM) の言語機能の急速な進歩により、査読プロセスに対する新たな潜在的なリスクは、怠慢な査読者が時間のかかる論文査読プロセスを LLM に依存することです。
この研究では、人間が書いた査読とさまざまな最先端の LLM を区別する既存の AI テキスト検出アルゴリズムの能力を調査します。
私たちの分析では、既存のアプローチでは、多数の誤検知分類を生成することなく、多くの GPT-4o 書面レビューを特定できていないことが示されています。
この欠陥に対処するために、低レベルの誤検知分類で GPT-4o に書かれた査読を特定する既存の方法を超える新しい検出アプローチを提案します。
私たちの研究は、AI によって生成されたテキストを個別のレビュー レベルで正確に識別することの難しさを明らかにし、生成 AI のこの種の非倫理的な適用を検出するための新しいツールと方法が緊急に必要であることを強調しています。
要約(オリジナル)
Peer review is a critical process for ensuring the integrity of published scientific research. Confidence in this process is predicated on the assumption that experts in the relevant domain give careful consideration to the merits of manuscripts which are submitted for publication. With the recent rapid advancements in the linguistic capabilities of large language models (LLMs), a new potential risk to the peer review process is that negligent reviewers will rely on LLMs to perform the often time consuming process of reviewing a paper. In this study, we investigate the ability of existing AI text detection algorithms to distinguish between peer reviews written by humans and different state-of-the-art LLMs. Our analysis shows that existing approaches fail to identify many GPT-4o written reviews without also producing a high number of false positive classifications. To address this deficiency, we propose a new detection approach which surpasses existing methods in the identification of GPT-4o written peer reviews at low levels of false positive classifications. Our work reveals the difficulty of accurately identifying AI-generated text at the individual review level, highlighting the urgent need for new tools and methods to detect this type of unethical application of generative AI.
arxiv情報
著者 | Sungduk Yu,Man Luo,Avinash Madasu,Vasudev Lal,Phillip Howard |
発行日 | 2024-12-06 17:23:53+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google