ChatGPT or academic scientist? Distinguishing authorship with over 99% accuracy using off-the-shelf machine learning tools


ChatGPT は、大衆が AI によって生成された文章にアクセスできるようにしました。この製品は、わずか数か月で知識経済を混乱させ、人々の働き方、学び方、書き方に文化の変化をもたらしました。
人間の文章と AI を区別する必要性は、特に高等教育やアカデミック ライティングなどの分野で、特に AI が著述家にとって重大な脅威や貢献をしていない分野で、重要かつ緊急の課題となっています。
このニーズに対処するために、ChatGPT によって生成されたテキストを (人間の) 学術科学者から識別する方法を開発しました。
前述の機能を含む 20 の機能のセットを使用して、作成者を人間または AI として割り当てるモデルを 99% を優に超える精度で構築し、その結果、分野をリードするアプローチと比較して、文書の誤分類が 20 分の 1 になりました。
人間が書いた特定のセットを AI から識別するためのこの戦略は、教師あり分類の基本的なスキルを持つ他の人によってさらに適応および開発される可能性があり、学術論文やその他の分野での AI の使用を検出するための多くの非常に正確でターゲットを絞ったモデルへのアクセスを可能にします。


ChatGPT has enabled access to AI-generated writing for the masses, and within just a few months, this product has disrupted the knowledge economy, initiating a culture shift in the way people work, learn, and write. The need to discriminate human writing from AI is now both critical and urgent, particularly in domains like higher education and academic writing, where AI had not been a significant threat or contributor to authorship. Addressing this need, we developed a method for discriminating text generated by ChatGPT from (human) academic scientists, relying on prevalent and accessible supervised classification methods. We focused on how a particular group of humans, academic scientists, write differently than ChatGPT, and this targeted approach led to the discovery of new features for discriminating (these) humans from AI; as examples, scientists write long paragraphs and have a penchant for equivocal language, frequently using words like but, however, and although. With a set of 20 features, including the aforementioned ones and others, we built a model that assigned the author, as human or AI, at well over 99% accuracy, resulting in 20 times fewer misclassified documents compared to the field-leading approach. This strategy for discriminating a particular set of humans writing from AI could be further adapted and developed by others with basic skills in supervised classification, enabling access to many highly accurate and targeted models for detecting AI usage in academic writing and beyond.


著者 Heather Desaire,Aleesa E. Chua,Madeline Isom,Romana Jarosova,David Hua
発行日 2023-03-28 23:16:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, Google

カテゴリー: cs.CL, cs.LG パーマリンク