要約
タイトル:GPT-3を用いた医療証拠の要約、簡略化、および総合(さまざまな成功度合いを伴う)
要約:
– GPT-3という大規模言語モデルは、特に少数の訓練データまたはゼロショットの状況下で一般的な分野のニュース記事の高品質な要約を生成することができます。
– しかし、バイオメディカルなどより専門的で高いリスクを伴う分野でも同様に能力を発揮できるかどうかは不明です。
– 本論文では、訓練を受けた医療の専門家による、GPT-3がゼロの監督の下で生成したバイオメディカル記事の要約を評価することによって、この問題に取り組みました。
– この評価は、単一文書および複数文書の状況に対して行われました。
– 単一文書の状況では、GPT-3はランダム化比較試験を説明する記事の通常の要約および平易な言葉を用いた要約の生成に責任を持ちました。
– 複数文書の状況では、GPT-3が記事の集積された証拠をどの程度統合できるかを評価しました。
– 生成された要約の事実上の正確性を評価する注釈スキームを設計しました。
– 結果として、GPT-3はバイオメディカル記事を単一の要約に要約および簡略化することができると同時に、複数の文書にまたがる結論を正確にまとめることができないことがわかりました。
– この研究で使用されたすべてのデータと注釈は公開されています。
要約(オリジナル)
Large language models, particularly GPT-3, are able to produce high quality summaries of general domain news articles in few- and zero-shot settings. However, it is unclear if such models are similarly capable in more specialized, high-stakes domains such as biomedicine. In this paper, we enlist domain experts (individuals with medical training) to evaluate summaries of biomedical articles generated by GPT-3, given zero supervision. We consider both single- and multi-document settings. In the former, GPT-3 is tasked with generating regular and plain-language summaries of articles describing randomized controlled trials; in the latter, we assess the degree to which GPT-3 is able to \emph{synthesize} evidence reported across a collection of articles. We design an annotation scheme for evaluating model outputs, with an emphasis on assessing the factual accuracy of generated summaries. We find that while GPT-3 is able to summarize and simplify single biomedical articles faithfully, it struggles to provide accurate aggregations of findings over multiple documents. We release all data and annotations used in this work.
arxiv情報
著者 | Chantal Shaib,Millicent L. Li,Sebastian Joseph,Iain J. Marshall,Junyi Jessy Li,Byron C. Wallace |
発行日 | 2023-05-11 15:51:55+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, OpenAI