Who’s the Best Detective? LLMs vs. MLs in Detecting Incoherent Fourth Grade Math Answers

要約

タイトル:
– LLMとMLによる不連続な4年生の数学の回答の検出:LLMはMLに劣るか?

要約:
– 開放問題の書き込み回答は、選択問題よりも長期的な学習効果が高い可能性があります。 ただし、教師が即座に回答を確認し、不整合な回答を再度行うように求めることが重要です。 これは、教師にとって困難で時間のかかる場合があります。 解決策の1つは、不整合な回答の検出を自動化することです。 LLM(Large Language Models)による検討を自動化することもできます。 この論文では、数学の4年生の回答を分析し、GPT-3、BLOOM、YOUの3つのLLMを使用しました。 ゼロ、1、2、3、および4回のショットで使用しました。 それらの性能を、Machine Learning(ML)でトレーニングされたさまざまな分類器の結果と比較しました。 LLMは、不連続な回答を検出する場合にMLよりも劣ることがわかりました。 難しいのは、質問と回答が含まれている再帰的な質問、通常の4年生の誤字を含む学生の反応にあります。 注意深く調べると、ChatGPTモデルも同じ課題に直面していることがわかりました。

要点:
– 開放問題の回答検討は、長期的な学習効果が高い
– 不整合な回答を自動的に検出することが重要である
– LLMはMLに比べて不連続な回答を検出する能力が劣る
– 再帰的な質問と誤字を含む回答が課題である
– ChatGPTモデルも同じ課題に直面していることがわかった

要約(オリジナル)

Written answers to open-ended questions can have a higher long-term effect on learning than multiple-choice questions. However, it is critical that teachers immediately review the answers, and ask to redo those that are incoherent. This can be a difficult task and can be time-consuming for teachers. A possible solution is to automate the detection of incoherent answers. One option is to automate the review with Large Language Models (LLM). In this paper, we analyze the responses of fourth graders in mathematics using three LLMs: GPT-3, BLOOM, and YOU. We used them with zero, one, two, three and four shots. We compared their performance with the results of various classifiers trained with Machine Learning (ML). We found that LLMs perform worse than MLs in detecting incoherent answers. The difficulty seems to reside in recursive questions that contain both questions and answers, and in responses from students with typical fourth-grader misspellings. Upon closer examination, we have found that the ChatGPT model faces the same challenges.

arxiv情報

著者 Felipe Urrutia,Roberto Araya
発行日 2023-04-21 21:25:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク