SEME at SemEval-2024 Task 2: Comparing Masked and Generative Language Models on Natural Language Inference for Clinical Trials

要約

この文書では、SemEval-2024 のタスク 2: 臨床試験のための安全な生物医学的自然言語推論への提出について説明します。
臨床試験データの複数証拠自然言語推論 (NLI4CT) は、臨床試験レポート (CTR) に適用される自然言語推論 (NLI) モデルの一貫性と忠実性の評価に焦点を当てたテキスト含意 (TE) タスクで構成されます。
私たちは 2 つの異なるアプローチをテストします。1 つはマスクされた言語モデルの微調整とアンサンブルに基づいており、もう 1 つはテンプレート、特に思考連鎖と対照的思考連鎖を使用した大規模言語モデルのプロンプトに基づいています。
2 ショット設定で Flan-T5-large をプロンプトすると、F1 スコア 0.57、忠実度 0.64、一貫性 0.56 を達成する最高のシステムが得られます。

要約(オリジナル)

This paper describes our submission to Task 2 of SemEval-2024: Safe Biomedical Natural Language Inference for Clinical Trials. The Multi-evidence Natural Language Inference for Clinical Trial Data (NLI4CT) consists of a Textual Entailment (TE) task focused on the evaluation of the consistency and faithfulness of Natural Language Inference (NLI) models applied to Clinical Trial Reports (CTR). We test 2 distinct approaches, one based on finetuning and ensembling Masked Language Models and the other based on prompting Large Language Models using templates, in particular, using Chain-Of-Thought and Contrastive Chain-Of-Thought. Prompting Flan-T5-large in a 2-shot setting leads to our best system that achieves 0.57 F1 score, 0.64 Faithfulness, and 0.56 Consistency.

arxiv情報

著者 Mathilde Aguiar,Pierre Zweigenbaum,Nona Naderi
発行日 2024-04-05 09:18:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク