A Multiple Choices Reading Comprehension Corpus for Vietnamese Language Education


要約:近年、テキストから有用な情報を抽出するためには、機械読解は興味深く、また挑戦的なタスクであるといえます。読み取ったテキストを理解し、関連情報に答えるためのコンピューター能力を得るために、Grade 1からGrade 12の学生向けの読解記事を含むVietnamese Textbooksに対する複数選択読解のタスクに対応する、ViMMRC 2.0を紹介します。このデータセットには、699の散文と詩の読解文章と5,273の質問があります。新しいデータセットの質問は、以前のバージョンのように4つの選択肢が固定されていません。さらに、質問の難易度が高くなっており、モデルが正しい選択肢を見つけるための課題が増えています。コンピューターは、正しい答えを抽出するために、読解文章全体、質問、および各選択肢の内容を理解しなければなりません。そこで、マルチステージアプローチを提案し、マルチステップアテンションネットワーク(MAN)を自然言語推論(NLI)タスクと組み合わせることで、読解モデルのパフォーマンスを向上させます。その後、提案された方法論を新しいデータセットとViMMRC 1.0でベースラインのBERTologyモデルと比較します。マルチステージモデルは、テストセットでの正解率が58.81%で、最高のBERTologyモデルよりも5.34%向上しました。誤り分析の結果から、読解モデルが直接的でないテキストの文脈を理解し、リンクさせて正しい答えを見つけることが課題であることがわかります。最後に、新しいデータセットが、コンピューターのベトナム語の言語理解能力を向上させるためのさらなる研究を促進することを望んでいます。


Machine reading comprehension has been an interesting and challenging task in recent years, with the purpose of extracting useful information from texts. To attain the computer ability to understand the reading text and answer relevant information, we introduce ViMMRC 2.0 – an extension of the previous ViMMRC for the task of multiple-choice reading comprehension in Vietnamese Textbooks which contain the reading articles for students from Grade 1 to Grade 12. This dataset has 699 reading passages which are prose and poems, and 5,273 questions. The questions in the new dataset are not fixed with four options as in the previous version. Moreover, the difficulty of questions is increased, which challenges the models to find the correct choice. The computer must understand the whole context of the reading passage, the question, and the content of each choice to extract the right answers. Hence, we propose the multi-stage approach that combines the multi-step attention network (MAN) with the natural language inference (NLI) task to enhance the performance of the reading comprehension model. Then, we compare the proposed methodology with the baseline BERTology models on the new dataset and the ViMMRC 1.0. Our multi-stage models achieved 58.81% by Accuracy on the test set, which is 5.34% better than the highest BERTology models. From the results of the error analysis, we found the challenge of the reading comprehension models is understanding the implicit context in texts and linking them together in order to find the correct answers. Finally, we hope our new dataset will motivate further research in enhancing the language understanding ability of computers in the Vietnamese language.


著者 Son T. Luu,Khoi Trong Hoang,Tuong Quang Pham,Kiet Van Nguyen,Ngan Luu-Thuy Nguyen
発行日 2023-03-31 15:54:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CL パーマリンク