要約
医療のような一か八かの分野で自然言語生成を実際に応用する場合、事実の正しさが制限要因になることがよくあります。
事実を維持するための必須要件は、希少なトークンを処理できることです。
このペーパーでは、ソース シーケンスと参照シーケンスの両方に出現し、生成中に見逃されると出力テキストの事実の正確性が低下する、まれなトークンに焦点を当てます。
知識が豊富なハイステークのドメインについては、知識を使用して、(a) ソースと参照の両方に出現するレアなトークンが重要であることを特定し、(b) それらの条件付き確率を高める方法を示します。
知識をエンコードし、選択されたトークンの限界確率を最大化することで正則化機能として機能する「利用率」を導入します。
私たちは、医療という知識が豊富な領域における研究を紹介します。そこでは、患者と医師の対話に基づいて訪問後のケアの指示を生成するという問題に取り組んでいます。
私たちのデータセットでは、利用率の高い特定の医療概念が、従来の方法でトレーニングされたシーケンス間モデルによって過小評価されていることを検証します。
知識注入のアプローチでこれを修正すると、流暢性に悪影響を与えることなく、モデルの不確実性が軽減され、事実性と一貫性が向上することがわかりました。
要約(オリジナル)
Factual correctness is often the limiting factor in practical applications of natural language generation in high-stakes domains such as healthcare. An essential requirement for maintaining factuality is the ability to deal with rare tokens. This paper focuses on rare tokens that appear in both the source and the reference sequences, and which, when missed during generation, decrease the factual correctness of the output text. For high-stake domains that are also knowledge-rich, we show how to use knowledge to (a) identify which rare tokens that appear in both source and reference are important and (b) uplift their conditional probability. We introduce the “utilization rate” that encodes knowledge and serves as a regularizer by maximizing the marginal probability of selected tokens. We present a study in a knowledge-rich domain of healthcare, where we tackle the problem of generating after-visit care instructions based on patient-doctor dialogues. We verify that, in our dataset, specific medical concepts with high utilization rates are underestimated by conventionally trained sequence-to-sequence models. We observe that correcting this with our approach to knowledge injection reduces the uncertainty of the model as well as improves factuality and coherence without negatively impacting fluency.
arxiv情報
著者 | Maksim Eremeev,Ilya Valmianski,Xavier Amatriain,Anitha Kannan |
発行日 | 2023-06-06 13:13:27+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google