要約
大規模な言語モデルは多くの自然言語処理 (NLP) タスクで成功しているにもかかわらず、知識集約型タスクに知識を効果的に活用することに依然として苦労しており、不完全、非事実、または非論理的な回答を生成するなどの限界が現れています。
これらの制限は、バニラの微調整中に LLM についての知識が不十分であることが原因で発生します。
これらの問題に対処するために、LLM の粒度の細かい知識認識と粗粒度の知識認識を改善するための知識認識微調整 (KnowTuning) 手法を提案します。
私たちは、LLM が回答の中から難しい粒度の高い知識を特定できるようにトレーニングするための粒度の細かい知識拡張ステージを考案しました。
また、完全性、事実性、論理性の 3 つの側面で、信頼できる知識と信頼できない知識を区別できるように LLM を訓練するための、粗粒度の知識比較ステージも提案します。
一般データセットと医療質問応答 (QA) データセットの両方に関する広範な実験により、さまざまな規模の LLM にわたる自動評価と人間による評価を通じて KnowTuning の有効性が確認されています。
さらに、KnowTuning は、きめ細かい事実評価の下で、より少ない事実誤認率でより多くの事実を生成することを検証します。
要約(オリジナル)
Despite their success at many natural language processing (NLP) tasks, large language models still struggle to effectively leverage knowledge for knowledge-intensive tasks, manifesting limitations such as generating incomplete, non-factual, or illogical answers. These limitations stem from inadequate knowledge awareness of LLMs during vanilla fine-tuning. To address these problems, we propose a knowledge-aware fine-tuning (KnowTuning) method to improve fine-grained and coarse-grained knowledge awareness of LLMs. We devise a fine-grained knowledge augmentation stage to train LLMs to identify difficult fine-grained knowledge in answers. We also propose a coarse-grained knowledge comparison stage to train LLMs to distinguish between reliable and unreliable knowledge, in three aspects: completeness, factuality, and logicality. Extensive experiments on both generic and medical question answering (QA) datasets confirm the effectiveness of KnowTuning, through automatic and human evaluations, across various sizes of LLMs. We further verify that KnowTuning generates more facts with less factual error rate under fine-grained facts evaluation.
arxiv情報
著者 | Yougang Lyu,Lingyong Yan,Shuaiqiang Wang,Haibo Shi,Dawei Yin,Pengjie Ren,Zhumin Chen,Maarten de Rijke,Zhaochun Ren |
発行日 | 2024-04-17 11:45:00+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google