Alloprof: a new French question-answer education dataset and its use in an information retrieval case study




– 学生や教師は、学校で提供されるものに加えて、オンライン学習リソースにますます頼るようになっています。
– 利用可能なリソースの幅と深さが広がることは、学生にとって素晴らしいことですが、クエリに対する回答を見つけることができる場合に限ります。
– 質問回答と情報検索システムは、アルゴリズムのトレーニングと評価に公開データセットを活用していますが、これらのデータセットのほとんどは、大人が書いた英文テキストに基づいています。
– アロプロフ(ケベック州の小中学校のヘルプサイト)から収集された2,596のリファレンスページのいくつかや、他の質問へのリンクを含む、様々な学科の29,349の質問とその説明を含む新しい公開フランス語の質問回答データセットを紹介する。
– このデータセットはオンラインフォーラムで収集され、適切性が検証されたすべての質問と、質問に対する適切性と関連性が検証された説明が含まれている。
– 事例研究では、事前学習されたBERTモデルを使用するアーキテクチャを微調整して評価を行い、関連性のあるドキュメントを予測した。
– このデータセットは、フランス語教育の文脈に特化した質問回答、情報検索、その他のアルゴリズムの開発を可能にする。
– 言語能力、画像、数学記号、スペルミステイクの範囲から、多様なモダル理解に基づくアルゴリズムが必要です。
– 基準として提示された事例研究は、最近の技術に依存しているアプローチが受け入れられるパフォーマンスレベルを提供することを示していますが、製品の設定で信頼できるようになるには、さらなる作業が必要です。


Teachers and students are increasingly relying on online learning resources to supplement the ones provided in school. This increase in the breadth and depth of available resources is a great thing for students, but only provided they are able to find answers to their queries. Question-answering and information retrieval systems have benefited from public datasets to train and evaluate their algorithms, but most of these datasets have been in English text written by and for adults. We introduce a new public French question-answering dataset collected from Alloprof, a Quebec-based primary and high-school help website, containing 29 349 questions and their explanations in a variety of school subjects from 10 368 students, with more than half of the explanations containing links to other questions or some of the 2 596 reference pages on the website. We also present a case study of this dataset in an information retrieval task. This dataset was collected on the Alloprof public forum, with all questions verified for their appropriateness and the explanations verified both for their appropriateness and their relevance to the question. To predict relevant documents, architectures using pre-trained BERT models were fine-tuned and evaluated. This dataset will allow researchers to develop question-answering, information retrieval and other algorithms specifically for the French speaking education context. Furthermore, the range of language proficiency, images, mathematical symbols and spelling mistakes will necessitate algorithms based on a multimodal comprehension. The case study we present as a baseline shows an approach that relies on recent techniques provides an acceptable performance level, but more work is necessary before it can reliably be used and trusted in a production setting.


著者 Antoine Lefebvre-Brossard,Stephane Gazaille,Michel C. Desmarais
発行日 2023-04-14 13:20:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, OpenAI

カテゴリー: cs.CL, cs.IR, cs.LG パーマリンク