DISTO: Evaluating Textual Distractors for Multi-Choice Questions using Negative Sampling based Approach

要約

タイトル: DISTO: ネガティブサンプリングベースの手法を用いた複数選択式問題のテキスト分散子の評価

要約:
– 多肢選択問題(MCQ)は、読解力を評価するための効率的で一般的な方法です。
– MCQには、学生の知識をテストするために、不正解であるが可能性がある誘惑答えのセットが必要です。
– 分散子生成(DG)モデルが提案され、彼らの性能は通常、機械翻訳(MT)メトリックを用いて評価されます。
– しかし、MTメトリックはしばしば生成された分散子の適切性を誤って判断します。
– 提案されたのが DISTO であり、これは生成された分散子のための初めての学習評価メトリックです。
– DISTO は、人間の評価と高い相関を示すことによって、そのスコアを検証します。
– 同時に、MTベースのメトリックでは分散子評価に使用すべきではありませんが、DISTO は最新の DG モデルの性能を非常に違ったランク付けをします。

要約(オリジナル)

Multiple choice questions (MCQs) are an efficient and common way to assess reading comprehension (RC). Every MCQ needs a set of distractor answers that are incorrect, but plausible enough to test student knowledge. Distractor generation (DG) models have been proposed, and their performance is typically evaluated using machine translation (MT) metrics. However, MT metrics often misjudge the suitability of generated distractors. We propose DISTO: the first learned evaluation metric for generated distractors. We validate DISTO by showing its scores correlate highly with human ratings of distractor quality. At the same time, DISTO ranks the performance of state-of-the-art DG models very differently from MT-based metrics, showing that MT metrics should not be used for distractor evaluation.

arxiv情報

著者 Bilal Ghanem,Alona Fyshe
発行日 2023-04-10 22:03:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.AI, cs.CL パーマリンク