A Generalized Apprenticeship Learning Framework for Modeling Heterogeneous Student Pedagogical Strategies

要約

インテリジェント個別指導システム (ITS) などの e ラーニング環境における主な課題は、効果的な教育方針を効率的に誘導することです。
深層強化学習 (DRL) はサンプルの非効率性と報酬関数の設計の難しさに悩まされることがよくありますが、見習い学習 (AL) アルゴリズムはそれらを克服できます。
ただし、ほとんどの AL アルゴリズムは、すべてのデモンストレーションが単一の報酬関数によって駆動される同種のポリシーで生成されることを前提としているため、異種性を処理できません。
それでも、異質性を考慮した一部の AL アルゴリズムは、多くの場合、大きな連続状態空間に一般化できず、離散状態でのみ機能します。
この論文では、不均一な報酬関数によって駆動されると想定される、与えられた最適または最適に近いデモンストレーションから効果的な教育政策を誘導するための一般的な AL フレームワークである期待最大化 (EM)-EDM を提案します。
私たちが提案するEM-EDMによって誘発される政策の有効性を、教育的行動予測を含む2つの異なるが関連するタスクに関して、4つのALベースのベースラインおよびDRLによって誘発される2つの政策と比較します。
全体的な結果は、両方のタスクにおいて、EM-EDM がすべてのパフォーマンス メトリックにわたって 4 つの AL ベースラインと 2 つの DRL ベースラインを上回るパフォーマンスを示していることを示しました。
これは、EM-EDM が、大規模な連続状態空間を管理し、与えられたデモをほとんど行わずに多様で異種の報酬関数を処理するように適応する能力を通じて、複雑な生徒の教育的意思決定プロセスを効果的にモデル化できることを示唆しています。

要約(オリジナル)

A key challenge in e-learning environments like Intelligent Tutoring Systems (ITSs) is to induce effective pedagogical policies efficiently. While Deep Reinforcement Learning (DRL) often suffers from sample inefficiency and reward function design difficulty, Apprenticeship Learning(AL) algorithms can overcome them. However, most AL algorithms can not handle heterogeneity as they assume all demonstrations are generated with a homogeneous policy driven by a single reward function. Still, some AL algorithms which consider heterogeneity, often can not generalize to large continuous state space and only work with discrete states. In this paper, we propose an expectation-maximization(EM)-EDM, a general AL framework to induce effective pedagogical policies from given optimal or near-optimal demonstrations, which are assumed to be driven by heterogeneous reward functions. We compare the effectiveness of the policies induced by our proposed EM-EDM against four AL-based baselines and two policies induced by DRL on two different but related tasks that involve pedagogical action prediction. Our overall results showed that, for both tasks, EM-EDM outperforms the four AL baselines across all performance metrics and the two DRL baselines. This suggests that EM-EDM can effectively model complex student pedagogical decision-making processes through the ability to manage a large, continuous state space and adapt to handle diverse and heterogeneous reward functions with very few given demonstrations.

arxiv情報

著者 Md Mirajul Islam,Xi Yang,John Hostetter,Adittya Soukarjya Saha,Min Chi
発行日 2024-06-04 16:14:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク