ProCoT: Stimulating Critical Thinking and Writing of Students through Engagement with Large Language Models (LLMs)

要約

私たちは、Probing Chain of Thought (ProCoT) と呼ばれる新しい記述方法を紹介します。これは、ChatGPT などの大規模言語モデル (LLM) を使用した学生の不正行為を防ぎ、そのようなモデルを通じて能動的な学習を強化します。
LLM は教育や他の多くの分野に混乱をもたらしました。
学生のカンニングを恐れて、多くの教育者はその出力が人間に似ており、場合によっては検出が難しいため、その使用を禁止することにしました。
これらの LLM は幻覚 (つまり、偽りの事実) があることでも知られています。
私たちは、合計約 66 人の学生を擁する 2 つの異なるコースで ProCoT を使用した学習を実施しています。
各コースの学生は、4 つの質問セットから 1 つの質問で自分の選択した LLM を提示するよう求められ、査読済みの参考資料を使用して LLM 出力内の発言を肯定または反論することが求められました。
結果は 2 つのことを示しています: (1) LLM の出力のみを ProCoT の出力と比較した場合、ProCoT は LLM との関わりを通じて生徒の創造的/批判的思考と執筆を刺激します、(2) ProCoT は既存の LLM の明らかな制限により不正行為を防止できます。
生徒の ProCoT 出力と LLM ProCoT 出力を比較します。
また、ほとんどの学生は、一般的に冗長な LLM よりも少ない単語で回答することを好むこともわかりました。
学生、ChatGPT (v3.5) および Phind (v8) の平均単語数は、それぞれ 208、391、および 383 です。

要約(オリジナル)

We introduce a novel writing method called Probing Chain of Thought (ProCoT), which prevents students from cheating using a Large Language Model (LLM), such as ChatGPT, while enhancing their active learning through such models. LLMs have disrupted education and many other feilds. For fear of students cheating, many educationists have resorted to banning their use, as their outputs can be human-like and hard to detect in some cases. These LLMs are also known for hallucinations (i.e. fake facts). We conduct studies with ProCoT in two different courses with a combined total of about 66 students. The students in each course were asked to prompt an LLM of their choice with one question from a set of four and required to affirm or refute statements in the LLM output by using peer reviewed references. The results show two things: (1) ProCoT stimulates creative/critical thinking and writing of students through engagement with LLMs when we compare the LLM solely output to ProCoT output and (2) ProCoT can prevent cheating because of clear limitations in existing LLMs when we compare students ProCoT output to LLM ProCoT output. We also discover that most students prefer to give answers in fewer words than LLMs, which are typically verbose. The average word counts for students, ChatGPT (v3.5) and Phind (v8) are 208, 391 and 383, respectively.

arxiv情報

著者 Tosin Adewumi,Lama Alkhaled,Claudia Buck,Sergio Hernandez,Saga Brilioth,Mkpe Kekung,Yelvin Ragimov,Elisa Barney
発行日 2023-12-15 14:01:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク