Distinguishing ChatGPT(-3.5, -4)-generated and human-written papers through Japanese stylometric analysis


タイトル: ChatGPT(-3.5、-4)によって生成された論文と人間によって書かれた論文を日本語の様式分析によって識別する

– Text-generative artificial intelligence (AI)、ChatGPTがGPT-3.5 および GPT-4でOpenAIによって装備されました。このAIに関する研究は、世界中で注目されています。
– この研究では、はじめにGPT (-3.5 および -4) によって生成された日本語の様式特徴を人間が書いたものと比較しました。
– この作業では、以下のスタイルメトリック特徴に焦点を当てて、既述の論文のタイトルに基づいて、216のテキストを3つのクラス(36の単一著者によって書かれた72の学術論文、GPT-3.5によって生成された72のテキスト、およびGPT-4によって生成された72個のテキスト)に分類するために、多次元スケーリング(MDS)を実行しました。
1. 形態素のビッグラム
2. 助詞のビッグラム
3. コンマの位置
4. 機能語の頻度
– MDSにより、GPT(-3.5、-4)および人間のスタイルメトリック特徴において、異なる分布が確認されました。
– GPT-4はよりパラメータ数が多いため、GPT-3.5よりも強力ですが、両者の分布は重なり合う傾向にあるとされます。
– これらの結果は、将来的にパラメータ数が増えたとしても、AIによって生成されたテキストがスタイルメトリック特徴において人間が書いたものに近づくことはないことを示唆しています。
– 次に、日本語のスタイルメトリック特徴に焦点を当てて、GPTと人間の2クラスの分類のランダムフォレスト(RF)の分類性能を検証しました。
– この研究では、RFによる各スタイルメトリック特徴の高い分類性能が明らかになりました。
– さらに、関数語の頻度に注目したRF分類器は、98.1%の精度を達成しました。
– また、全てのスタイルメトリック特徴に注目したRF分類器は、全てのパフォーマンス指数(精度、再現率、適合率、F1スコア)において100%に達しました。
– この研究は、現時点では、日本語に限定されるが、ChatGPTを人間が識別することができると結論づけました。


Text-generative artificial intelligence (AI), including ChatGPT, equipped with GPT-3.5 and GPT-4, from OpenAI, has attracted considerable attention worldwide. In this study, first, we compared Japanese stylometric features generated by GPT (-3.5 and -4) and those written by humans. In this work, we performed multi-dimensional scaling (MDS) to confirm the classification of 216 texts into three classes (72 academic papers written by 36 single authors, 72 texts generated by GPT-3.5, and 72 texts generated by GPT-4 on the basis of the titles of the aforementioned papers) focusing on the following stylometric features: (1) bigrams of parts-of-speech, (2) bigram of postpositional particle words, (3) positioning of commas, and (4) rate of function words. MDS revealed distinct distributions at each stylometric feature of GPT (-3.5 and -4) and human. Although GPT-4 is more powerful than GPT-3.5 because it has more parameters, both GPT (-3.5 and -4) distributions are likely to overlap. These results indicate that although the number of parameters may increase in the future, AI-generated texts may not be close to that written by humans in terms of stylometric features. Second, we verified the classification performance of random forest (RF) for two classes (GPT and human) focusing on Japanese stylometric features. This study revealed the high performance of RF in each stylometric feature. Furthermore, the RF classifier focusing on the rate of function words achieved 98.1% accuracy. The RF classifier focusing on all stylometric features reached 100% in terms of all performance indexes (accuracy, recall, precision, and F1 score). This study concluded that at this stage we human discriminate ChatGPT from human limited to Japanese language.


著者 Wataru Zaitsu,Mingzhe Jin
発行日 2023-04-11 23:29:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CL パーマリンク