要約
ダイアログのチューターを設計することは、人間のチューターが採用する多様で複雑な教育戦略のモデル化を伴うため、困難でした。
大規模言語モデル (LLM) を使用したニューラル会話システムと利用可能な対話コーパスの成長には最近大きな進歩がありましたが、対話の個別指導はこれらの進歩の影響をほとんど受けていません。
この論文では、自動評価と人間による評価を使用して言語学習用の 2 つの対話学習データセットでさまざまな生成言語モデルを厳密に分析し、これらの進歩によってもたらされる新しい機会と、実際に使用できるモデルを構築するために克服しなければならない課題を理解します。
教育設定。
現在のアプローチは、教えられる概念の数と考えられる教師の戦略が少ない場合、制約のある学習シナリオで個別指導をモデル化できますが、制約の少ないシナリオではうまく機能しないことがわかりました。
私たちの人間の質の評価では、モデルとグラウンド トゥルース アノテーションの両方が、生徒の学習機会と会話の魅力を測定する公平な個別指導の点で低いパフォーマンスを示していることが示されています。
実際の個別指導環境でのモデルの動作を理解するために、専門家のアノテーターを使用してユーザー調査を実施し、会話の 45% で非常に多数のモデル推論エラーを発見しました。
最後に、調査結果を結び付けて、今後の作業の概要を説明します。
要約(オリジナル)
Designing dialog tutors has been challenging as it involves modeling the diverse and complex pedagogical strategies employed by human tutors. Although there have been significant recent advances in neural conversational systems using large language models (LLMs) and growth in available dialog corpora, dialog tutoring has largely remained unaffected by these advances. In this paper, we rigorously analyze various generative language models on two dialog tutoring datasets for language learning using automatic and human evaluations to understand the new opportunities brought by these advances as well as the challenges we must overcome to build models that would be usable in real educational settings. We find that although current approaches can model tutoring in constrained learning scenarios when the number of concepts to be taught and possible teacher strategies are small, they perform poorly in less constrained scenarios. Our human quality evaluation shows that both models and ground-truth annotations exhibit low performance in terms of equitable tutoring, which measures learning opportunities for students and how engaging the dialog is. To understand the behavior of our models in a real tutoring setting, we conduct a user study using expert annotators and find a significantly large number of model reasoning errors in 45% of conversations. Finally, we connect our findings to outline future work.
arxiv情報
著者 | Jakub Macina,Nico Daheim,Lingzhi Wang,Tanmay Sinha,Manu Kapur,Iryna Gurevych,Mrinmaya Sachan |
発行日 | 2023-03-27 19:13:35+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google