要約
この論文では、教育対話における教師の応答の生成に関する最初の共有タスクの結果について説明します。
このタスクの目標は、生成言語モデルが AI 教師として機能し、教師と生徒の対話で生徒に応答する能力をベンチマークすることでした。
CodaLab が主催するコンテストには 8 チームが参加しました。
彼らは、Alpaca、Bloom、DialoGPT、DistilGPT-2、Flan-T5、GPT-2、GPT-3、GPT-4、LLaMA、OPT-2.7B、
そしてT5ベース。
彼らの提出物は、BERTScore および DialogRPT メトリクスを使用して自動的に採点され、その中の上位 3 つは、Tack and Piech (2022) に基づいて教育能力の観点からさらに手動で評価されました。
自動評価と人間による評価の両方で 1 位にランクされた NAISTeacher システムは、プロンプトのアンサンブルと、特定の対話コンテキストに対する DialogRPT ベースの応答ランキングを使用して、GPT-3.5 で応答を生成しました。
参加チームの有望な成果にもかかわらず、この結果は、教育の状況により適した評価指標の必要性も浮き彫りにしています。
要約(オリジナル)
This paper describes the results of the first shared task on the generation of teacher responses in educational dialogues. The goal of the task was to benchmark the ability of generative language models to act as AI teachers, replying to a student in a teacher-student dialogue. Eight teams participated in the competition hosted on CodaLab. They experimented with a wide variety of state-of-the-art models, including Alpaca, Bloom, DialoGPT, DistilGPT-2, Flan-T5, GPT-2, GPT-3, GPT- 4, LLaMA, OPT-2.7B, and T5-base. Their submissions were automatically scored using BERTScore and DialogRPT metrics, and the top three among them were further manually evaluated in terms of pedagogical ability based on Tack and Piech (2022). The NAISTeacher system, which ranked first in both automated and human evaluation, generated responses with GPT-3.5 using an ensemble of prompts and a DialogRPT-based ranking of responses for given dialogue contexts. Despite the promising achievements of the participating teams, the results also highlight the need for evaluation metrics better suited to educational contexts.
arxiv情報
著者 | Anaïs Tack,Ekaterina Kochmar,Zheng Yuan,Serge Bibauw,Chris Piech |
発行日 | 2023-06-12 08:21:34+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google