Challenges of GPT-3-based Conversational Agents for Healthca

要約

医療専門家が重要な業務に集中できるようにしながら、患者に迅速な情報アクセスを提供できる可能性が、医療分野の対話エージェントを魅力的なものにしています。
ただし、大規模言語モデル (LLM) をこれらのエージェントに統合すると、重大な結果を引き起こす可能性のある特定の制限が生じます。
この論文では、医療質問応答 (MedQA) に GPT-3 ベースのモデルを使用する際の課題とリスクを調査します。
私たちは、標準的な医学原則に基づいていくつかの評価を実施します。
当社では、MedQA システムにおける LLM の高リスク制限をストレス テストするための患者クエリを手動で設計する手順を提供します。
私たちの分析では、LLM がこれらのクエリに適切に応答できず、誤った医療情報、安全でない推奨事項、攻撃的とみなされる可能性のあるコンテンツを生成していることが明らかになりました。

要約(オリジナル)

The potential to provide patients with faster information access while allowing medical specialists to concentrate on critical tasks makes medical domain dialog agents appealing. However, the integration of large-language models (LLMs) into these agents presents certain limitations that may result in serious consequences. This paper investigates the challenges and risks of using GPT-3-based models for medical question-answering (MedQA). We perform several evaluations contextualized in terms of standard medical principles. We provide a procedure for manually designing patient queries to stress-test high-risk limitations of LLMs in MedQA systems. Our analysis reveals that LLMs fail to respond adequately to these queries, generating erroneous medical information, unsafe recommendations, and content that may be considered offensive.

arxiv情報

著者 Fabian Lechner,Allison Lahnala,Charles Welch,Lucie Flek
発行日 2023-08-28 15:12:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク