DERA: Enhancing Large Language Model Completions with Dialog-Enabled Resolving Agents

要約

大規模言語モデル (LLM) は、多くの自然言語理解タスクのための貴重なツールとして登場しました。
ヘルスケアなどの安全性が重要なアプリケーションでは、これらのモデルの有用性は、事実に基づいて正確で完全な出力を生成する能力によって決まります。
この作業では、ダイアログ対応の解決エージェント (DERA) を提示します。
DERA は、LLM、つまり GPT-4 の会話能力の向上によって可能になったパラダイムです。
モデルがフィードバックを伝達し、反復的に出力を改善するためのシンプルで解釈可能なフォーラムを提供します。
私たちの会話は、情報を処理し、重要な問題の構成要素を特定する研究者と、研究者の情報を統合し、最終的な結果を判断する自律性を持つ決定者の 2 種類のエージェント間の議論として構成されています。
3 つの臨床的に焦点を当てたタスクに対して DERA をテストします。
医療会話の要約とケア プランの生成では、DERA は、人間の専門家の好みの評価と定量的指標の両方で、ベースの GPT-4 パフォーマンスを大幅に改善しています。
新しい調査結果では、MedQA 質問応答 (QA) データセット (Jin et al. 2021, USMLE) のオープンエンド バージョンでの GPT-4 のパフォーマンス (70%) が合格レベル (60%) をはるかに上回っていることも示しています。
%)、DERA も同様のパフォーマンスを示しています。
https://github.com/curai/curai-research/tree/main/DERA で、無制限の MEDQA データセットをリリースします。

要約(オリジナル)

Large language models (LLMs) have emerged as valuable tools for many natural language understanding tasks. In safety-critical applications such as healthcare, the utility of these models is governed by their ability to generate outputs that are factually accurate and complete. In this work, we present dialog-enabled resolving agents (DERA). DERA is a paradigm made possible by the increased conversational abilities of LLMs, namely GPT-4. It provides a simple, interpretable forum for models to communicate feedback and iteratively improve output. We frame our dialog as a discussion between two agent types – a Researcher, who processes information and identifies crucial problem components, and a Decider, who has the autonomy to integrate the Researcher’s information and makes judgments on the final output. We test DERA against three clinically-focused tasks. For medical conversation summarization and care plan generation, DERA shows significant improvement over the base GPT-4 performance in both human expert preference evaluations and quantitative metrics. In a new finding, we also show that GPT-4’s performance (70%) on an open-ended version of the MedQA question-answering (QA) dataset (Jin et al. 2021, USMLE) is well above the passing level (60%), with DERA showing similar performance. We release the open-ended MEDQA dataset at https://github.com/curai/curai-research/tree/main/DERA.

arxiv情報

著者 Varun Nair,Elliot Schumacher,Geoffrey Tso,Anitha Kannan
発行日 2023-03-30 00:30:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク