Can ChatGPT and Bard Generate Aligned Assessment Items? A Reliability Analysis against Human Performance

要約

タイトル: オープンAI ChatGPTとGoogle Bardは、人間のパフォーマンスと一致した評価項目を生成できるか?人のパフォーマンスとの信頼性分析

要約:
– ChatGPTとBardは、LLMに基づくAIチャットボットで、さまざまな領域で異なる応用を約束している。
– 教育分野では、これらのAI技術が評価や教育のアプリケーションに使用されている。
– 評価においては、自動エッセイスコアリングや自動項目生成に長く用いられてきたが、これらのツールが評価で人間の代わりに支援するために必要な心理測定特性の1つは、AIスコアと人間の評価者の間の一致性に高い信頼性があることである。
– この論文では、OpenAI ChatGPとGoogle Bard LLMツールの信頼性を、ライティングプロンプトの複雑さを理解し、評価する訓練と経験豊富な人間に対して測定する。
– パフォーマンスメトリックとしてのICCは、OpenAI ChatGPTとGoogle Bardの間の相互信頼性が、人間の評価基準に対して低かったことを示した。

要約(オリジナル)

ChatGPT and Bard are AI chatbots based on Large Language Models (LLM) that are slated to promise different applications in diverse areas. In education, these AI technologies have been tested for applications in assessment and teaching. In assessment, AI has long been used in automated essay scoring and automated item generation. One psychometric property that these tools must have to assist or replace humans in assessment is high reliability in terms of agreement between AI scores and human raters. In this paper, we measure the reliability of OpenAI ChatGP and Google Bard LLMs tools against experienced and trained humans in perceiving and rating the complexity of writing prompts. Intraclass correlation (ICC) as a performance metric showed that the inter-reliability of both the OpenAI ChatGPT and the Google Bard were low against the gold standard of human ratings.

arxiv情報

著者 Abdolvahab Khademi
発行日 2023-04-09 04:53:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.AI, cs.CL パーマリンク