要約
命令調整された大規模言語モデル (LLM) は、自然言語命令が与えられると幅広いタスクを実行できますが、そのような命令がどのように表現されるかに敏感です。
この問題は、臨床医が経験豊富な迅速なエンジニアである可能性が低く、この分野では不正確な出力による潜在的な結果が高まるため、医療分野では特に懸念されます。
これにより、実際的な疑問が生じます。命令調整された LLM は、臨床 NLP タスクに提供される命令の自然な変動に対してどの程度堅牢ですか?
私たちはさまざまなタスクにわたって医師からのプロンプトを収集し、7 つの LLM (一般的なものと特殊なもの) の自然な (つまり、敵対的ではない) 指示の表現に対する感受性を定量化します。
すべてのモデルでパフォーマンスが大きく異なり、おそらく驚くべきことですが、臨床データに基づいて明示的にトレーニングされたドメイン固有のモデルは、一般的なドメインの対応するモデルと比較して特に脆弱であることがわかりました。
さらに、任意の表現の違いが公平性に影響を与える可能性があります。たとえば、死亡率予測に関する有効ではあるが別個の指示によって、全体的なパフォーマンスと人口統計グループ間の差異の両方の点で範囲が生じます。
要約(オリジナル)
Instruction-tuned Large Language Models (LLMs) can perform a wide range of tasks given natural language instructions to do so, but they are sensitive to how such instructions are phrased. This issue is especially concerning in healthcare, as clinicians are unlikely to be experienced prompt engineers and the potential consequences of inaccurate outputs are heightened in this domain. This raises a practical question: How robust are instruction-tuned LLMs to natural variations in the instructions provided for clinical NLP tasks? We collect prompts from medical doctors across a range of tasks and quantify the sensitivity of seven LLMs — some general, others specialized — to natural (i.e., non-adversarial) instruction phrasings. We find that performance varies substantially across all models, and that — perhaps surprisingly — domain-specific models explicitly trained on clinical data are especially brittle, compared to their general domain counterparts. Further, arbitrary phrasing differences can affect fairness, e.g., valid but distinct instructions for mortality prediction yield a range both in overall performance, and in terms of differences between demographic groups.
arxiv情報
著者 | Alberto Mario Ceballos Arroyo,Monica Munnangi,Jiuding Sun,Karen Y. C. Zhang,Denis Jered McInerney,Byron C. Wallace,Silvio Amir |
発行日 | 2024-07-12 17:00:44+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google