Game of Tones: Faculty detection of GPT-4 generated content in university assessments

要約

この研究では、Open AI の Generative Pre-Trained Transformer 4 (GPT-4) で生成されたコンテンツの使用に対する大学評価の堅牢性を調査し、Turnitin 人工知能 (AI) 検出ツールでサポートされている場合にその使用を検出する教員の能力を評価します。

この研究では、GPT-4 で生成された 22 件の提出物が作成され、15 人の異なる教員によって採点される評価プロセスに組み込まれました。
この調査では、検出ツールによって実験送信の 91% に AI によって生成されたコンテンツが含まれていると特定されたものの、検出されたコンテンツの合計は 54.8% にすぎなかったことが明らかになりました。
これは、プロンプト エンジニアリングに関する敵対的手法の使用が AI 検出ツールを回避する効果的な方法であることを示唆しており、AI 検出ソフトウェアの改善が必要であることを強調しています。
Turnitin AI 検出ツールを使用した教員は、実験提出の 54.5% が学術的不正行為プロセスに関与していると報告しており、これらのツールに対する意識向上とトレーニングの必要性が示唆されています。
本物の投稿の平均スコアは 54.4 でしたが、AI で生成されたコンテンツのスコアは 52.3 で、現実の状況における GPT-4 のパフォーマンスが同等であることを示しています。
推奨事項には、AI ツールの使用に対する耐性を高めるために評価戦略を調整すること、可能な限り AI を含む評価を使用すること、教職員と学生に包括的なトレーニング プログラムを提供することなどが含まれます。
この研究は、AI によって生成されたコンテンツと学術的評価の関係を理解するのに貢献し、学術的完全性を維持するためのさらなる調査を促します。

要約(オリジナル)

This study explores the robustness of university assessments against the use of Open AI’s Generative Pre-Trained Transformer 4 (GPT-4) generated content and evaluates the ability of academic staff to detect its use when supported by the Turnitin Artificial Intelligence (AI) detection tool. The research involved twenty-two GPT-4 generated submissions being created and included in the assessment process to be marked by fifteen different faculty members. The study reveals that although the detection tool identified 91% of the experimental submissions as containing some AI-generated content, the total detected content was only 54.8%. This suggests that the use of adversarial techniques regarding prompt engineering is an effective method in evading AI detection tools and highlights that improvements to AI detection software are needed. Using the Turnitin AI detect tool, faculty reported 54.5% of the experimental submissions to the academic misconduct process, suggesting the need for increased awareness and training into these tools. Genuine submissions received a mean score of 54.4, whereas AI-generated content scored 52.3, indicating the comparable performance of GPT-4 in real-life situations. Recommendations include adjusting assessment strategies to make them more resistant to the use of AI tools, using AI-inclusive assessment where possible, and providing comprehensive training programs for faculty and students. This research contributes to understanding the relationship between AI-generated content and academic assessment, urging further investigation to preserve academic integrity.

arxiv情報

著者 Mike Perkins,Jasper Roe,Darius Postma,James McGaughran,Don Hickerson
発行日 2023-05-29 13:31:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CY, K.4 パーマリンク