Robust Educational Dialogue Act Classifiers with Low-Resource and Imbalanced Datasets

要約

タイトル: 低リソースかつ不均衡なデータセットでの堅牢な教育用対話行為分類器

要約:
– 対話行為(DA)は、チューターや学生がチューティング対話で行う会話のアクションを表すことができます
– チューティング対話でDAを自動的に識別することは、対話型のインテリジェントチューターシステムの設計に重要です
– 低リソースのデータ(すなわち、データ不足の状況)を使用してDAを分類するために、多くの先行研究が機械学習モデルを使用し、識別精度を最適化するために多くの努力を払ってきました。
– 分類精度以上に、分類器の堅牢性も重要であり、異なるクラスの分布からパターンを学習する能力を反映することができます。
– 教育用DAの分類に関する多くの先行研究では、クロスエントロピー(CE)損失を使用してDA分類器を最適化しており、不均衡なDA分布を持つ低リソースデータに対して優先的に多数派のクラスの精度を重視する傾向があります。これは、異なるDAクラスの比率が不均衡なデータに対しては堅牢でない可能性があります。
– 不均衡なクラス分布上で分類器の堅牢性を最適化するために、ROC曲線下の面積(AUC)スコアを最大化することによりDA分類器の性能を最適化することを提案します(すなわち、AUC最大化)。
– 広範な実験を通じて、本研究により(i)学習プロセスでAUCを最大化することにより、CEアプローチに比べてDA分類器の性能が大幅に向上すること、(ii) AUC最大化アプローチが異なるクラス不均衡率の下でDA分類器の堅牢性を向上させることが示唆されました。

要約(オリジナル)

Dialogue acts (DAs) can represent conversational actions of tutors or students that take place during tutoring dialogues. Automating the identification of DAs in tutoring dialogues is significant to the design of dialogue-based intelligent tutoring systems. Many prior studies employ machine learning models to classify DAs in tutoring dialogues and invest much effort to optimize the classification accuracy by using limited amounts of training data (i.e., low-resource data scenario). However, beyond the classification accuracy, the robustness of the classifier is also important, which can reflect the capability of the classifier on learning the patterns from different class distributions. We note that many prior studies on classifying educational DAs employ cross entropy (CE) loss to optimize DA classifiers on low-resource data with imbalanced DA distribution. The DA classifiers in these studies tend to prioritize accuracy on the majority class at the expense of the minority class which might not be robust to the data with imbalanced ratios of different DA classes. To optimize the robustness of classifiers on imbalanced class distributions, we propose to optimize the performance of the DA classifier by maximizing the area under the ROC curve (AUC) score (i.e., AUC maximization). Through extensive experiments, our study provides evidence that (i) by maximizing AUC in the training process, the DA classifier achieves significant performance improvement compared to the CE approach under low-resource data, and (ii) AUC maximization approaches can improve the robustness of the DA classifier under different class imbalance ratios.

arxiv情報

著者 Jionghao Lin,Wei Tan,Ngoc Dang Nguyen,David Lang,Lan Du,Wray Buntine,Richard Beare,Guanliang Chen,Dragan Gasevic
発行日 2023-04-15 08:01:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.AI, cs.CL, cs.HC, cs.LG パーマリンク