Complementary Advantages of ChatGPTs and Human Readers in Reasoning: Evidence from English Text Reading Comprehension

要約

ChatGPT は、テキストの読み取りからの推論能力を含め、テキスト処理において大きな力を発揮します。
ただし、テキストの読み取りに関する推論能力に関して、人間の読者と ChatGPT との間で直接比較したことはありません。
この研究は、ChatGPT (つまり、ChatGPT および ChatGPT Plus) と ESL 学習者である中国の高校生が英語の物語文からどのように推論能力を発揮するかを調査するために行われました。
さらに、コマンドを精巧に更新した場合の推論パフォーマンスについて、2 つの ChatGPT を比較しました。
研究全体は 3 つの推論テストで構成されています。テスト 1 は常識的推論、テスト 2 は感情的推論、テスト 3 は因果的推論です。
結果は、テスト 1 では、学生が地域文化関連の推論では 2 つの ChatGPT バージョンを上回りましたが、日常生活の推論ではチャットボットよりもパフォーマンスが悪かったことを示しました。
テスト 2 では、ChatGPT Plus が優れていたのに対し、ChatGPT は精度で遅れをとっていました。
正解の正確さと頻度の両方に関して、学生は 2 つのチャットボットよりも劣っていました。
ChatGPT のポジティブな感情における優れたパフォーマンスと比較して、学生たちはネガティブな感情の推論において優れていることを示しました。
テスト 3 では、学生は両方のチャットボットを上回り、より優れた論理分析を実証しました。
コマンド条件の更新では、ChatGPT は変更されずに、ChatGPT Plus は優れた因果推論能力を示しました。
私たちの研究により、人間の読者と ChatGPT には、テキストの読解から推論を引き出す際にそれぞれ長所と短所があり、テキストベースの推論における補完的な関係が明らかになりました。

要約(オリジナル)

ChatGPT has shown its great power in text processing, including its reasoning ability from text reading. However, there has not been any direct comparison between human readers and ChatGPT in reasoning ability related to text reading. This study was undertaken to investigate how ChatGPTs (i.e., ChatGPT and ChatGPT Plus) and Chinese senior school students as ESL learners exhibited their reasoning ability from English narrative texts. Additionally, we compared the two ChatGPTs in the reasoning performances when commands were updated elaborately. The whole study was composed of three reasoning tests: Test 1 for commonsense inference, Test 2 for emotional inference, and Test 3 for causal inference. The results showed that in Test 1, the students outdid the two ChatGPT versions in local-culture-related inferences but performed worse than the chatbots in daily-life inferences. In Test 2, ChatGPT Plus excelled whereas ChatGPT lagged behind in accuracy. In association with both accuracy and frequency of correct responses, the students were inferior to the two chatbots. Compared with ChatGPTs’ better performance in positive emotions, the students showed their superiority in inferring negative emotions. In Test 3, the students demonstrated better logical analysis, outdoing both chatbots. In updating command condition, ChatGPT Plus displayed good causal reasoning ability while ChatGPT kept unchanged. Our study reveals that human readers and ChatGPTs have their respective advantages and disadvantages in drawing inferences from text reading comprehension, unlocking a complementary relationship in text-based reasoning.

arxiv情報

著者 Tongquan Zhou,Yao Zhang,Siyi Cao,Yulu Li,Tao Wang
発行日 2023-11-17 06:13:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク