Red Teaming Large Language Models for Healthcare

要約

私たちは、2024年8月15日に開催されたヘルスケアの大規模な言語モデルのレッドチーム化の大規模な言語モデルと題されたレッドチーム化のための機械学習(2024年)での会議前ワークショップの設計プロセスと調査結果を紹介します。会議参加者は、計算および臨床の専門知識を組み合わせて、脆弱性を発見しようと試みました。
臨床医とのレッドチームは、LLM開発者が臨床の専門知識を欠いていることが認識されない可能性のあるLLMの脆弱性を特定することができます。
見つかった脆弱性を報告し、それらを分類し、提供されたすべてのLLMにわたって脆弱性を評価する複製研究の結果を提示します。

要約(オリジナル)

We present the design process and findings of the pre-conference workshop at the Machine Learning for Healthcare Conference (2024) entitled Red Teaming Large Language Models for Healthcare, which took place on August 15, 2024. Conference participants, comprising a mix of computational and clinical expertise, attempted to discover vulnerabilities — realistic clinical prompts for which a large language model (LLM) outputs a response that could cause clinical harm. Red-teaming with clinicians enables the identification of LLM vulnerabilities that may not be recognised by LLM developers lacking clinical expertise. We report the vulnerabilities found, categorise them, and present the results of a replication study assessing the vulnerabilities across all LLMs provided.

arxiv情報

著者 Vahid Balazadeh,Michael Cooper,David Pellow,Atousa Assadi,Jennifer Bell,Jim Fackler,Gabriel Funingana,Spencer Gable-Cook,Anirudh Gangadhar,Abhishek Jaiswal,Sumanth Kaja,Christopher Khoury,Randy Lin,Kaden McKeen,Sara Naimimohasses,Khashayar Namdar,Aviraj Newatia,Allan Pang,Anshul Pattoo,Sameer Peesapati,Diana Prepelita,Bogdana Rakova,Saba Sadatamin,Rafael Schulman,Ajay Shah,Syed Azhar Shah,Syed Ahmar Shah,Babak Taati,Balagopal Unnikrishnan,Stephanie Williams,Rahul G Krishnan
発行日 2025-05-01 11:43:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク