要約
大規模言語モデル (LLM) は、事実の知識への自然なインターフェイスを作成しますが、意味的に同等の質問に対して一貫性のない回答を提供する傾向があるため、その有用性は制限されています。
たとえば、モデルは「アン・レッドパスがエディンバラで亡くなった」の両方を予測する可能性があります。
そして「アン・レッドパスの生涯はロンドンで終わった。」
この研究では、不一致の潜在的な原因を特定し、検索コーパスによる LM のアップスケーリングと拡張という 2 つの緩和戦略の有効性を評価します。
LLaMA モデルと Atlas モデルに関する私たちの結果は、どちらの戦略も不一致を軽減し、検索拡張の方が大幅に効率的であることを示しています。
さらに、Atlas のさまざまなコンポーネントの一貫性への寄与を検討し、解きほぐします。
評価されたすべての LM について、構文形式とその他の評価タスクの成果物が一貫性に影響を与えることがわかりました。
総合すると、私たちの結果は、言語モデルの事実の一貫性に影響を与える要因をより深く理解することを提供します。
要約(オリジナル)
Large Language Models (LLMs) make natural interfaces to factual knowledge, but their usefulness is limited by their tendency to deliver inconsistent answers to semantically equivalent questions. For example, a model might predict both ‘Anne Redpath passed away in Edinburgh.’ and ‘Anne Redpath’s life ended in London.’ In this work, we identify potential causes of inconsistency and evaluate the effectiveness of two mitigation strategies: up-scaling and augmenting the LM with a retrieval corpus. Our results on the LLaMA and Atlas models show that both strategies reduce inconsistency while retrieval augmentation is considerably more efficient. We further consider and disentangle the consistency contributions of different components of Atlas. For all LMs evaluated we find that syntactical form and other evaluation task artifacts impact consistency. Taken together, our results provide a better understanding of the factors affecting the factual consistency of language models.
arxiv情報
著者 | Lovisa Hagström,Denitsa Saynova,Tobias Norlund,Moa Johansson,Richard Johansson |
発行日 | 2023-11-02 15:20:11+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google