Towards Safe Large Language Models for Medicine

要約

大規模言語モデル (LLM) は絶えず改良された機能を開発し、現実世界の設定に適用されるため、その安全性を理解することが重要です。
一般知識向け LLM の安全性を評価するための初期段階が取られ、いくつかの弱点が明らかになりましたが、医療用 LLM の安全性は、個人の健康と安全、公衆衛生と安全、患者の権利、および人間に対するリスクが高いにもかかわらず、十分に評価されていません。
権利。
このギャップに対処するために、私たちは、私たちの知る限りでは、医療用 LLM の安全性を評価し改善するためのこの種の研究としては初の研究を実施します。
我々は、1) 現在の医療 LLM は有害な要求にすぐに従うため、一般的または医療安全の基準を満たしていないこと、2) 安全性デモンストレーションで医療 LLM を微調整することで安全性が大幅に向上し、有害な要求に従う傾向が減少することがわかりました。

さらに、LLM の医療安全の定義を提示し、LLM の医療安全を評価およびトレーニングするためのベンチマーク データセットを開発します。
機械学習の安全性と医療機械学習の研究の交差点に位置するこの研究は、医療 LLM の安全性の現状に光を当て、この分野での将来の研究を動機づけ、医療における LLM の危害のリスクを軽減します。

要約(オリジナル)

As large language models (LLMs) develop ever-improving capabilities and are applied in real-world settings, it is important to understand their safety. While initial steps have been taken to evaluate the safety of general-knowledge LLMs, exposing some weaknesses, the safety of medical LLMs has not been sufficiently evaluated despite their high risks to personal health and safety, public health and safety, patient rights, and human rights. To address this gap, we conduct, to our knowledge, the first study of its kind to evaluate and improve the safety of medical LLMs. We find that 1) current medical LLMs do not meet standards of general or medical safety, as they readily comply with harmful requests and that 2) fine-tuning medical LLMs on safety demonstrations significantly improves their safety, reducing their tendency to comply with harmful requests. In addition, we present a definition of medical safety for LLMs and develop a benchmark dataset to evaluate and train for medical safety in LLMs. Poised at the intersection of research on machine learning safety and medical machine learning, this work casts light on the status quo of the safety of medical LLMs and motivates future work in this area, mitigating the risks of harm of LLMs in medicine.

arxiv情報

著者 Tessa Han,Aounon Kumar,Chirag Agarwal,Himabindu Lakkaraju
発行日 2024-05-01 12:24:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI パーマリンク