FrenchMedMCQA: A French Multiple-Choice Question Answering Dataset for Medical domain

要約

タイトル:医療分野向けのフランス語の多肢選択問答データセットであるFrenchMedMCQA

要約:
– FrenchMedMCQAは、医療分野におけるフランス語の最初の公開された多肢選択問答(MCQA)データセットであり、実在の薬局のフランスの医療専門資格試験から独占された3105の問題で構成されています。
– 各データセットのインスタンスには、識別子、問題、5つの可能な答え、およびそれらの手動修正内容が含まれています。
– このMCQAタスクを自動的に処理する最初のベースラインモデルを提案し、現在のパフォーマンスを報告し、タスクの難しさを明らかにすることも提案しています。
– 結果の詳細な分析により、医療分野またはMCQAタスクに適合した表現が必要であることが示されました。
– コーパス、モデル、ツールはオンラインで利用可能です。

要約より、次のような要点が挙げられます。
– 医療分野におけるフランス語の最初の公開された多肢選択問答(MCQA)データセットであるFrenchMedMCQAがある。
– FrenchMedMCQAは、実在の薬局のフランスの医療専門資格試験から独占された3105の問題で構成されている。
– 各データセットのインスタンスには、識別子、問題、5つの可能な答え、およびそれらの手動修正内容が含まれている。
– このMCQAタスクを自動的に処理する最初のベースラインモデルを提案し、現在のパフォーマンスを報告し、タスクの難しさを明らかにすることも提案している。
– 医療分野またはMCQAタスクに適合した表現が必要であることが示された。
– コーパス、モデル、ツールはオンラインで利用可能である。

要約(オリジナル)

This paper introduces FrenchMedMCQA, the first publicly available Multiple-Choice Question Answering (MCQA) dataset in French for medical domain. It is composed of 3,105 questions taken from real exams of the French medical specialization diploma in pharmacy, mixing single and multiple answers. Each instance of the dataset contains an identifier, a question, five possible answers and their manual correction(s). We also propose first baseline models to automatically process this MCQA task in order to report on the current performances and to highlight the difficulty of the task. A detailed analysis of the results showed that it is necessary to have representations adapted to the medical domain or to the MCQA task: in our case, English specialized models yielded better results than generic French ones, even though FrenchMedMCQA is in French. Corpus, models and tools are available online.

arxiv情報

著者 Yanis Labrak,Adrien Bazoge,Richard Dufour,Mickael Rouvier,Emmanuel Morin,Béatrice Daille,Pierre-Antoine Gourraud
発行日 2023-04-09 16:57:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.AI, cs.CL パーマリンク