Generalist embedding models are better at short-context clinical semantic search than specialized embedding models

要約

大規模言語モデル(Large Language Models:LLM)に基づくツールやソリューションが、医療分野における様々なタスクに使用されるようになってきている。この非常に重要で繊細な領域におけるLLMの使用は、そのロバスト性、特に入力の変動に対するロバスト性、および生成された出力の信頼性について重要な問題を提起している。本研究では、米国の病院で広く使用され、多くの臨床用語を含むICD-10-CMコード記述に基づくテキストデータセットを構築し、それらの容易に再現可能な言い換えを行うことで、これらの疑問を解決する。次に、既存の埋め込みモデル(臨床領域に特化したもの、または汎用のもの)を、言い換えられたテキストを元の記述に正しくマッチさせることを目的とした意味検索タスクでベンチマークした。その結果、ジェネラリストモデルの方が臨床モデルよりも優れた性能を示した。このことは、既存の臨床特化モデルは、入力の小さな変化に対してより敏感に反応し、混乱を招くことを示唆している。特化型モデルの強調された問題は、十分なデータ、特に医療文書の正確な処理に必要な信頼性の高いグローバルな言語理解を持つのに十分な多様性のないデータセットで訓練されていないという事実に起因している可能性がある。

要約(オリジナル)

The increasing use of tools and solutions based on Large Language Models (LLMs) for various tasks in the medical domain has become a prominent trend. Their use in this highly critical and sensitive domain has thus raised important questions about their robustness, especially in response to variations in input, and the reliability of the generated outputs. This study addresses these questions by constructing a textual dataset based on the ICD-10-CM code descriptions, widely used in US hospitals and containing many clinical terms, and their easily reproducible rephrasing. We then benchmarked existing embedding models, either generalist or specialized in the clinical domain, in a semantic search task where the goal was to correctly match the rephrased text to the original description. Our results showed that generalist models performed better than clinical models, suggesting that existing clinical specialized models are more sensitive to small changes in input that confuse them. The highlighted problem of specialized models may be due to the fact that they have not been trained on sufficient data, and in particular on datasets that are not diverse enough to have a reliable global language understanding, which is still necessary for accurate handling of medical documents.

arxiv情報

著者 Jean-Baptiste Excoffier,Tom Roehr,Alexei Figueroa,Michalis Papaaioannou,Keno Bressem,Matthieu Ortala
発行日 2024-01-03 19:03:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CL パーマリンク