Fine Tuning Large Language Models for Medicine: The Role and Importance of Direct Preference Optimization

要約

大規模言語モデル (LLM) の微調整は、医療分野では十分に活用されていません。
微調整の最も一般的な方法は、教師あり微調整 (SFT) と直接優先最適化 (DPO) の 2 つですが、どちらの手法をいつ使用するかをユーザーに知らせるガイダンスはほとんどありません。
この調査では、医療における 5 つの一般的な自然言語タスク (テキスト データによる分類、数値データによる分類、臨床推論、要約、臨床トリアージ) に対する SFT と DPO のパフォーマンスを比較します。
テキスト データの分類には SFT だけで十分であるのに対し、DPO は臨床推論、要約、臨床トリアージなどのより複雑なタスクのパフォーマンスを向上させることがわかりました。
私たちの結果は、医療における DPO 微調整の役割と重要性を確立し、その結果、この技術の広範な展開を妨げている現在のソフトウェアのギャップに注意を喚起します。

要約(オリジナル)

Large Language Model (LLM) fine tuning is underutilized in the field of medicine. Two of the most common methods of fine tuning are Supervised Fine Tuning (SFT) and Direct Preference Optimization (DPO), but there is little guidance informing users when to use either technique. In this investigation, we compare the performance of SFT and DPO for five common natural language tasks in medicine: Classification with text data, Classification with numeric data, Clinical Reasoning, Summarization, and Clinical Triage. We find that SFT alone is sufficient for Classification with text data, whereas DPO improves performance for the more complex tasks of Clinical Reasoning, Summarization and Clinical Triage. Our results establish the role and importance of DPO fine tuning within medicine, and consequently call attention to current software gaps that prevent widespread deployment of this technique.

arxiv情報

著者 Thomas Savage,Stephen Ma,Abdessalem Boukil,Vishwesh Patel,Ekanath Rangan,Ivan Lopez,Jonathan H Chen
発行日 2024-12-13 15:37:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク