Does Informativeness Matter? Active Learning for Educational Dialogue Act Classification


タイトル:Does Informativeness Matter? Active Learning for Educational Dialogue Act Classification


– 対話行為(DA)は、チュータリアルプロセス中にエキスパートチューターが何をするか、および学生が何を知っているかを説明するために使用できます。
– 一般的に、多くの実証的研究は、DAのマニュアルアノテーションのための文のサンプルをランダムに抽出し、これらを用いてDA分類器を訓練しています。
– しかし、これらの研究は、選択されたサンプルの情報量を反映するサンプルの情報量にあまり注意を払っておらず、分類器がパターンを学ぶことができる程度を通知できます。
– 特に、情報度はサンプル間で異なる可能性があり、分類器がパターンを学ぶためには少量の情報量が少ないサンプルのみが必要な場合があります。
– ランダムサンプリングは、サンプルの情報量を見落とす可能性があり、人的ラベリングコストを負担し、分類器のトレーニングにあまり寄与しません。
– 代わりに、研究者は、アクティブラーニング(AL)の統計的サンプリング方法を使用して情報量の高いサンプルを識別することを提案しています。
– この論文では、注釈付きの文のサンプルの情報量について調査し、AL法がALサンプリングプロセスで分類器をサポートするために情報量の高いサンプルを選択する方法を調査します。
– 結果として、トレーニングデータセットには大部分が情報量が低い注釈付きの文があり、これらの文のパターンはDA分類器によって簡単に把握できることがわかりました。
– また、AL法がALサンプリングプロセスでマニュアル注釈のコストを削減する方法も実演しています。


Dialogue Acts (DAs) can be used to explain what expert tutors do and what students know during the tutoring process. Most empirical studies adopt the random sampling method to obtain sentence samples for manual annotation of DAs, which are then used to train DA classifiers. However, these studies have paid little attention to sample informativeness, which can reflect the information quantity of the selected samples and inform the extent to which a classifier can learn patterns. Notably, the informativeness level may vary among the samples and the classifier might only need a small amount of low informative samples to learn the patterns. Random sampling may overlook sample informativeness, which consumes human labelling costs and contributes less to training the classifiers. As an alternative, researchers suggest employing statistical sampling methods of Active Learning (AL) to identify the informative samples for training the classifiers. However, the use of AL methods in educational DA classification tasks is under-explored. In this paper, we examine the informativeness of annotated sentence samples. Then, the study investigates how the AL methods can select informative samples to support DA classifiers in the AL sampling process. The results reveal that most annotated sentences present low informativeness in the training dataset and the patterns of these sentences can be easily captured by the DA classifier. We also demonstrate how AL methods can reduce the cost of manual annotation in the AL sampling process.


著者 Wei Tan,Jionghao Lin,David Lang,Guanliang Chen,Dragan Gasevic,Lan Du,Wray Buntine
発行日 2023-04-12 02:42:20+00:00
arxivサイト arxiv_id(pdf)

