要約
手書きの課題を自動的に修正するための従来のアプローチは、OCR モデルを使用して文字を認識し、それらを回答と比較することです。
OCR モデルは、手書きの漢字を認識する際に混乱しやすく、モデルの推論中に回答のテキスト情報が失われます。
ただし、教師は常にこれらの回答を念頭に置いて、課題を確認および修正します。
このホワイト ペーパーでは、中国の穴埋めテストの修正に焦点を当て、マルチモーダル アプローチ (AiM という名前) を提案します。
解答のコード化された表現は、生徒の手書きの視覚情報と相互作用します。
「正しい」か「間違っている」かを予測する代わりに、回答テキストにシーケンス ラベル付けを実行して、どの回答文字が手書きの内容と異なるかをきめ細かく推測します。
このタスクのポジティブ サンプルとして OCR データセットのサンプルを取得し、トレーニング データをスケールアップするためのネガティブ サンプル増強方法を開発します。
実験結果は、AiM が OCR ベースの方法よりも大幅に優れていることを示しています。
広範な研究により、当社のマルチモーダル アプローチの有効性が実証されています。
要約(オリジナル)
To automatically correct handwritten assignments, the traditional approach is to use an OCR model to recognize characters and compare them to answers. The OCR model easily gets confused on recognizing handwritten Chinese characters, and the textual information of the answers is missing during the model inference. However, teachers always have these answers in mind to review and correct assignments. In this paper, we focus on the Chinese cloze tests correction and propose a multimodal approach (named AiM). The encoded representations of answers interact with the visual information of students’ handwriting. Instead of predicting ‘right’ or ‘wrong’, we perform the sequence labeling on the answer text to infer which answer character differs from the handwritten content in a fine-grained way. We take samples of OCR datasets as the positive samples for this task, and develop a negative sample augmentation method to scale up the training data. Experimental results show that AiM outperforms OCR-based methods by a large margin. Extensive studies demonstrate the effectiveness of our multimodal approach.
arxiv情報
著者 | Yusen Zhang,Zhongli Li,Qingyu Zhou,Ziyi Liu,Chao Li,Mina Ma,Yunbo Cao,Hongzhi Liu |
発行日 | 2022-08-26 08:56:32+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google