要約
GPT や Llama などの大規模言語モデル (LLM) は、要約タスクで大きな成果を上げていますが、事実の不正確さに悩まされています。これは、エラーが重大な結果につながる可能性がある臨床 NLP アプリケーションにおける重大な問題です。
事実との整合性を図るための専門家による注釈付きデータの高コストと入手可能性の制限に対抗するために、この研究では、GPT-3.5 や GPT-4 などの 100B を超えるパラメータの GPT バリアントを利用して、高品質の合成フィードバックを生成する合成専門家として機能する革新的なパイプラインを導入しています。
臨床記録の要約における事実の一貫性を高めることを目的としています。
私たちの研究は主に、人間による追加の注釈なしでこれらの合成フィードバック専門家によって生成された編集フィードバックに焦点を当てており、医療専門家が AI システムの出力を改良する実際のシナリオを反映して最適化しています。
このような 100B を超えるパラメーターの GPT バリアントは、医師免許試験などのさまざまな臨床 NLP タスクにおける専門知識を実証しているものの、合成フィードバックの専門家として機能し、データの生成品質を向上させるための専門家レベルの編集フィードバックを提供する能力についての研究はほとんどありません。
臨床領域における GPT-2 (1.5B) および Llama 2 (7B) のような弱い (<10B パラメーター) LLM。
したがって、この作業では、100B を超える GPT バリアントを活用して、専門家レベルの編集フィードバックを提供する合成フィードバックの専門家として機能します。これは、幻覚を軽減し、2 つの異なる調整アルゴリズム (DPO と SALT) を使用して弱い (<10B パラメーター) LLM を医学的事実と調整するために使用されます。
)、AI が生成したコンテンツと事実の正確さの間の溝を狭めるよう努めています。
これは、臨床事実の整合性を高める上で、LLM ベースの合成編集の大きな可能性を強調しています。
要約(オリジナル)
Large Language Models (LLMs) such as GPT & Llama have demonstrated significant achievements in summarization tasks but struggle with factual inaccuracies, a critical issue in clinical NLP applications where errors could lead to serious consequences. To counter the high costs and limited availability of expert-annotated data for factual alignment, this study introduces an innovative pipeline that utilizes >100B parameter GPT variants like GPT-3.5 & GPT-4 to act as synthetic experts to generate high-quality synthetics feedback aimed at enhancing factual consistency in clinical note summarization. Our research primarily focuses on edit feedback generated by these synthetic feedback experts without additional human annotations, mirroring and optimizing the practical scenario in which medical professionals refine AI system outputs. Although such 100B+ parameter GPT variants have proven to demonstrate expertise in various clinical NLP tasks, such as the Medical Licensing Examination, there is scant research on their capacity to act as synthetic feedback experts and deliver expert-level edit feedback for improving the generation quality of weaker (<10B parameter) LLMs like GPT-2 (1.5B) & Llama 2 (7B) in clinical domain. So in this work, we leverage 100B+ GPT variants to act as synthetic feedback experts offering expert-level edit feedback, that is used to reduce hallucinations and align weaker (<10B parameter) LLMs with medical facts using two distinct alignment algorithms (DPO & SALT), endeavoring to narrow the divide between AI-generated content and factual accuracy. This highlights the substantial potential of LLM-based synthetic edits in enhancing the alignment of clinical factuality.
arxiv情報
著者 | Prakamya Mishra,Zonghai Yao,Parth Vashisht,Feiyun Ouyang,Beining Wang,Vidhi Dhaval Mody,Hong Yu |
発行日 | 2024-04-18 16:50:43+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google