CasiMedicos-Arg: A Medical Question Answering Dataset Annotated with Explanatory Argumentative Structures

要約

人工知能 (AI) の決定を説明することは、今日の AI における大きな課題であり、特に医療や法律などの機密性の高いシナリオに適用される場合に顕著です。
しかし、決定の背後にある論理的根拠を説明する必要性は、特定の決定が行われた \textit{理由} を正当化することが重要であるため、人間ベースの審議でも主要な問題です。
たとえば研修医は、(おそらく正しい)診断を提供するだけでなく、どのようにして特定の結論に達したかを説明することも求められます。
したがって、住民の説明スキルの訓練を支援する新しいツールを開発することが、教育における AI の中心的な目的となります。
この論文では、この方向に従い、私たちの知る限り、臨床症例の正しい診断と誤った診断が医師によって書かれた自然言語の説明で強化された医療質問応答用の初の多言語データセットを紹介します。
これらの説明には、議論の構成要素 (つまり、前提、主張) と議論の関係 (つまり、攻撃、支持) が手動で注釈付けされており、その結果、4 か国語 (英語、スペイン語、フランス語) の 558 の臨床症例で構成される多言語 CasiMedicos-Arg データセットが作成されます。
、イタリア語) 説明付き。5,021 件の主張、2,313 件の前提、2,431 件の支援関係、および 1,106 件の攻撃関係に注釈を付けました。
最後に、引数マイニング タスクのこの困難なデータセットに対して競合ベースラインがどのように機能するかを示します。

要約(オリジナル)

Explaining Artificial Intelligence (AI) decisions is a major challenge nowadays in AI, in particular when applied to sensitive scenarios like medicine and law. However, the need to explain the rationale behind decisions is a main issue also for human-based deliberation as it is important to justify \textit{why} a certain decision has been taken. Resident medical doctors for instance are required not only to provide a (possibly correct) diagnosis, but also to explain how they reached a certain conclusion. Developing new tools to aid residents to train their explanation skills is therefore a central objective of AI in education. In this paper, we follow this direction, and we present, to the best of our knowledge, the first multilingual dataset for Medical Question Answering where correct and incorrect diagnoses for a clinical case are enriched with a natural language explanation written by doctors. These explanations have been manually annotated with argument components (i.e., premise, claim) and argument relations (i.e., attack, support), resulting in the Multilingual CasiMedicos-Arg dataset which consists of 558 clinical cases in four languages (English, Spanish, French, Italian) with explanations, where we annotated 5021 claims, 2313 premises, 2431 support relations, and 1106 attack relations. We conclude by showing how competitive baselines perform over this challenging dataset for the argument mining task.

arxiv情報

著者 katerina Sviridova,Anar Yeginbergen,Ainara Estarrona,Elena Cabrio,Serena Villata,Rodrigo Agerri
発行日 2024-10-07 17:41:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク