SPEER: Sentence-Level Planning of Long Clinical Summaries via Embedded Entity Retrieval

要約

臨床医は患者が退院するたびに長い要約を書かなければならない。この作業は、入院で扱われる固有の臨床概念の数が非常に多いため、時間がかかる。要約を臨床的に有用なものにするためには、顕著な実体を識別してカバーすることが不可欠である。オープンソースのLLM(Mistral-7B-InstructとZephyr-7B-b{eta})をこのタスクで微調整し、不完全で不誠実な要約を生成することを発見した。エンティティカバレッジを向上させるために、エンコーダのみの小さなモデルを訓練し、顕著なエンティティを予測する。LLMがソースノート内の特定の言及に集中するよう促すために、我々はSPEER: Sentence-level Planning via Embedded Entity Retrievalを提案する。具体的には、注目すべき各エンティティスパンを特別な「{ }}」境界タグでマークし、各文を生成する前に、マークされたスパンを検索するようにLLMに指示する。文レベルのプランニングは、モデルが使用するエンティティを明示的に記録するという点で、状態追跡の一形態として機能する。MistralとZephyrの変種を、167kの入院患者からなる大規模で多様なデータセットで微調整し、3つのデータセットで評価した。SPEERは、非ガイドベースラインとガイドベースラインと比較して、カバレッジと忠実度の両方のメトリクスで向上を示す。

要約(オリジナル)

Clinician must write a lengthy summary each time a patient is discharged from the hospital. This task is time-consuming due to the sheer number of unique clinical concepts covered in the admission. Identifying and covering salient entities is vital for the summary to be clinically useful. We fine-tune open-source LLMs (Mistral-7B-Instruct and Zephyr-7B-\b{eta}) on the task and find that they generate incomplete and unfaithful summaries. To increase entity coverage, we train a smaller, encoder-only model to predict salient entities, which are treated as content-plans to guide the LLM. To encourage the LLM to focus on specific mentions in the source notes, we propose SPEER: Sentence-level Planning via Embedded Entity Retrieval. Specifically, we mark each salient entity span with special ‘{{ }}’ boundary tags and instruct the LLM to retrieve marked spans before generating each sentence. Sentence-level planning acts as a form of state tracking in that the model is explicitly recording the entities it uses. We fine-tune Mistral and Zephyr variants on a large-scale, diverse dataset of ~167k in-patient hospital admissions and evaluate on 3 datasets. SPEER shows gains in both coverage and faithfulness metrics over non-guided and guided baselines.

arxiv情報

著者 Griffin Adams,Jason Zucker,Noémie Elhadad
発行日 2024-01-04 17:23:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL パーマリンク