Wait, but Tylenol is Acetaminophen… Investigating and Improving Language Models’ Ability to Resist Requests for Misinformation

要約

背景: 大規模言語モデル (LLM) は指示に従うようにトレーニングされていますが、これにより、間違った情報が生成された場合でもユーザーの要求に盲目的に従う脆弱性が生じます。
医学においては、これにより人間の幸福に影響を与える誤った情報の生成が加速する可能性があります。
目的/方法: リクエストが非論理的であるとモデルが認識している設定で、薬に関する誤解を招くコンテンツを生成するリクエストへのコンプライアンスを分析しました。
私たちは、コンテキストに沿った指示と、コンプライアンスよりも論理的推論を優先するための LLM の命令調整が、誤った情報のリスクを軽減するかどうかを調査しました。
結果: すべてのフロンティア LLM が誤った情報の要求に応じましたが、プロンプトベースとパラメータベースのアプローチの両方により、要求内の論理欠陥の検出が向上し、医療誤情報の拡散を防ぐことができます。
結論: コンプライアンスよりもロジックを優先するように LLM を変更すると、医療上の誤った情報が悪用されるリスクを軽減できる可能性があります。

要約(オリジナル)

Background: Large language models (LLMs) are trained to follow directions, but this introduces a vulnerability to blindly comply with user requests even if they generate wrong information. In medicine, this could accelerate the generation of misinformation that impacts human well-being. Objectives/Methods: We analyzed compliance to requests to generate misleading content about medications in settings where models know the request is illogical. We investigated whether in-context directions and instruction-tuning of LLMs to prioritize logical reasoning over compliance reduced misinformation risk. Results: While all frontier LLMs complied with misinformation requests, both prompt-based and parameter-based approaches can improve the detection of logic flaws in requests and prevent the dissemination of medical misinformation. Conclusion: Shifting LLMs to prioritize logic over compliance could reduce risks of exploitation for medical misinformation.

arxiv情報

著者 Shan Chen,Mingye Gao,Kuleen Sasse,Thomas Hartvigsen,Brian Anthony,Lizhou Fan,Hugo Aerts,Jack Gallifant,Danielle Bitterman
発行日 2024-09-30 15:20:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク