Towards Automatic Boundary Detection for Human-AI Collaborative Hybrid Essay in Education

要約

ChatGPT などの最近の大規模言語モデル (LLM) は、特定の命令が提供された場合に、人間のような流暢な応答を生成することができます。
教育者は、テクノロジーの進歩によってもたらされる利便性を認めながらも、学生が LLM を利用して作文課題を完了し、それをオリジナルの作品として渡すのではないかという懸念も抱いています。
このような懸念の結果として、多くの AI コンテンツ検出の研究が行われてきましたが、これらの先行研究のほとんどは、テキストが完全に人間によって書かれたものであるか、完全に AI によって生成されたものであると仮定して、AI コンテンツ検出を分類問題としてモデル化していました。
この研究では、検出対象のテキストが人間と生成 LLM (つまり、ハイブリッド テキスト) によって共同で記述されるという、あまり調査されていない現実的な設定で AI コンテンツ検出を調査しました。
私たちはまず、特定のハイブリッド テキストから人間が書いたコンテンツと AI が生成したコンテンツの間の遷移点を特定するという検出タスクを形式化しました (境界検出)。
次に、2 段階のアプローチを提案しました。(1) エンコーダのトレーニング プロセス中に、AI が生成したコンテンツを人間が作成したコンテンツから分離します。
(2) 2 つの隣接するプロトタイプごとに距離を計算し、互いに最も遠い 2 つの隣接するプロトタイプの間に境界が存在すると仮定します。
広範な実験を通じて、次の主な発見を観察しました。(1) 提案されたアプローチは、さまざまな実験設定にわたってベースライン手法よりも一貫して優れたパフォーマンスを示しました。
(2) エンコーダのトレーニング プロセスにより、提案されたアプローチのパフォーマンスが大幅に向上します。
(3) 単一境界のハイブリッド エッセイの境界を検出する場合、提案されたアプローチは、比較的大きなプロトタイプ サイズを採用することで強化でき、ドメイン内評価で 22% の改善、ドメイン外評価で 18% の改善につながります。
ドメイン評価。

要約(オリジナル)

The recent large language models (LLMs), e.g., ChatGPT, have been able to generate human-like and fluent responses when provided with specific instructions. While admitting the convenience brought by technological advancement, educators also have concerns that students might leverage LLMs to complete their writing assignments and pass them off as their original work. Although many AI content detection studies have been conducted as a result of such concerns, most of these prior studies modeled AI content detection as a classification problem, assuming that a text is either entirely human-written or entirely AI-generated. In this study, we investigated AI content detection in a rarely explored yet realistic setting where the text to be detected is collaboratively written by human and generative LLMs (i.e., hybrid text). We first formalized the detection task as identifying the transition points between human-written content and AI-generated content from a given hybrid text (boundary detection). Then we proposed a two-step approach where we (1) separated AI-generated content from human-written content during the encoder training process; and (2) calculated the distances between every two adjacent prototypes and assumed that the boundaries exist between the two adjacent prototypes that have the furthest distance from each other. Through extensive experiments, we observed the following main findings: (1) the proposed approach consistently outperformed the baseline methods across different experiment settings; (2) the encoder training process can significantly boost the performance of the proposed approach; (3) when detecting boundaries for single-boundary hybrid essays, the proposed approach could be enhanced by adopting a relatively large prototype size, leading to a 22% improvement in the In-Domain evaluation and an 18% improvement in the Out-of-Domain evaluation.

arxiv情報

著者 Zijie Zeng,Lele Sha,Yuheng Li,Kaixun Yang,Dragan Gašević,Guanliang Chen
発行日 2023-08-11 09:18:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク