SylloBio-NLI: Evaluating Large Language Models on Biomedical Syllogistic Reasoning

要約

三段論法の推論は、自然言語推論(NLI)にとって重要です。
この能力は、自動証拠の解釈や科学的発見をサポートできるバイオメディシンなどの特殊なドメインで特に重要です。
このペーパーでは、シロビオンリを紹介します。これは、外部オントロジーを活用して生物医学NLIの多様な三段論法の議論を体系的にインスタンス化する新しいフレームワークです。
Syllobio-nliを採用して、有効な結論を特定し、ヒトゲノム経路に具体化された28の三段論法スキームにわたってサポートエビデンスを抽出することについて、大規模な言語モデル(LLMS)を評価します。
広範な実験により、生物医学的な三段論法の推論は、一般化されたモダムのポネンで70%、分離派の三段論法で23%の間の平均精度を達成するゼロショットLLMにとって特に困難であることが明らかになりました。
同時に、少数のショットプロンプトがGemma(+14%)やLlama-3(+43%)を含むさまざまなLLMのパフォーマンスを高めることができることがわかりました。
ただし、より深い分析では、両方の技術が表面的な語彙の変動に対して高い感度を示すことを示しており、信頼性、モデルのアーキテクチャ、およびトレーニング前の体制との依存関係を強調しています。
全体として、我々の結果は、コンテキスト内の例がLLMSで三段論法の推論を引き出す可能性があるが、既存のモデルは、安全な生物医学的NLIアプリケーションに必要な堅牢性と一貫性を達成することから依然としてほど遠いことを示しています。

要約(オリジナル)

Syllogistic reasoning is crucial for Natural Language Inference (NLI). This capability is particularly significant in specialized domains such as biomedicine, where it can support automatic evidence interpretation and scientific discovery. This paper presents SylloBio-NLI, a novel framework that leverages external ontologies to systematically instantiate diverse syllogistic arguments for biomedical NLI. We employ SylloBio-NLI to evaluate Large Language Models (LLMs) on identifying valid conclusions and extracting supporting evidence across 28 syllogistic schemes instantiated with human genome pathways. Extensive experiments reveal that biomedical syllogistic reasoning is particularly challenging for zero-shot LLMs, which achieve an average accuracy between 70% on generalized modus ponens and 23% on disjunctive syllogism. At the same time, we found that few-shot prompting can boost the performance of different LLMs, including Gemma (+14%) and LLama-3 (+43%). However, a deeper analysis shows that both techniques exhibit high sensitivity to superficial lexical variations, highlighting a dependency between reliability, models’ architecture, and pre-training regime. Overall, our results indicate that, while in-context examples have the potential to elicit syllogistic reasoning in LLMs, existing models are still far from achieving the robustness and consistency required for safe biomedical NLI applications.

arxiv情報

著者 Magdalena Wysocka,Danilo Carvalho,Oskar Wysocki,Marco Valentino,Andre Freitas
発行日 2025-02-10 14:11:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク