要約
この研究は、高度なテクノロジーを使用して学生の課題から AI によって生成されたコンテンツを検出するツールを提供することにより、学術的誠実性を強化することを目指しています。
この調査結果は透明性と説明責任を促進し、教育者が倫理基準を維持し、教育における AI の責任ある統合をサポートするのに役立ちます。
この研究の主な貢献は、CyberHumanAI データセットの生成です。このデータセットには 1,000 件の観測値があり、そのうち 500 件は人間によって書き込まれ、残りの 500 件は ChatGPT によって作成されます。
CyberHumanAI データセット上のさまざまな機械学習 (ML) およびディープ ラーニング (DL) アルゴリズムを評価し、人間が作成したコンテンツと大規模言語モデル (LLM) (つまり ChatGPT) から AI が生成したコンテンツを比較します。
結果は、従来の ML アルゴリズム、特に XGBoost と Random Forest が高いパフォーマンス (それぞれ 83% と 81% の精度) を達成することを示しています。
また、結果は、短いコンテンツを分類することは、長いコンテンツを分類することよりも難しいようであることも示しています。
さらに、Explainable Artificial Intelligence (XAI) を使用して、ML モデルの予測に影響を与える識別機能を特定します。この場合、人間が書いたコンテンツは実用的な言語 (使用や許可など) を使用する傾向があります。
一方、AI が生成したテキストは、より抽象的で形式的な用語 (レルムや雇用など) によって特徴付けられます。
最後に、GPTZero との比較分析により、狭く焦点を絞ったシンプルで微調整されたモデルが GPTZero のような一般化されたシステムよりも優れたパフォーマンスを発揮できることが示されています。
Pure AI、Pure Human、および混合クラスを分類するタスクを課された場合、提案されたモデルは、GPTZero の 48.5% の精度と比較して、約 77.5% の精度を達成しました。
GPTZero は、困難で内容の少ないケースを混合または認識されないものとして分類する傾向を示しましたが、私たちが提案したモデルは 3 つのクラス全体でよりバランスの取れたパフォーマンスを示しました。
要約(オリジナル)
This study seeks to enhance academic integrity by providing tools to detect AI-generated content in student work using advanced technologies. The findings promote transparency and accountability, helping educators maintain ethical standards and supporting the responsible integration of AI in education. A key contribution of this work is the generation of the CyberHumanAI dataset, which has 1000 observations, 500 of which are written by humans and the other 500 produced by ChatGPT. We evaluate various machine learning (ML) and deep learning (DL) algorithms on the CyberHumanAI dataset comparing human-written and AI-generated content from Large Language Models (LLMs) (i.e., ChatGPT). Results demonstrate that traditional ML algorithms, specifically XGBoost and Random Forest, achieve high performance (83% and 81% accuracies respectively). Results also show that classifying shorter content seems to be more challenging than classifying longer content. Further, using Explainable Artificial Intelligence (XAI) we identify discriminative features influencing the ML model’s predictions, where human-written content tends to use a practical language (e.g., use and allow). Meanwhile AI-generated text is characterized by more abstract and formal terms (e.g., realm and employ). Finally, a comparative analysis with GPTZero show that our narrowly focused, simple, and fine-tuned model can outperform generalized systems like GPTZero. The proposed model achieved approximately 77.5% accuracy compared to GPTZero’s 48.5% accuracy when tasked to classify Pure AI, Pure Human, and mixed class. GPTZero showed a tendency to classify challenging and small-content cases as either mixed or unrecognized while our proposed model showed a more balanced performance across the three classes.
arxiv情報
著者 | Ayat A. Najjar,Huthaifa I. Ashqar,Omar A. Darwish,Eman Hammad |
発行日 | 2025-01-06 18:34:20+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google