要約
理想的には、対話システムは、関連するドキュメントに含まれる知識に忠実な応答を生成する必要があります。
しかし、多くのモデルは、それと矛盾する、または検証不可能な情報を含む代わりに、幻覚反応を生成します。
このような望ましくない動作を軽減するために、ネガティブ サンプルで「ネガティブ エキスパート」を微調整し、そのパラメーターを事前トレーニング済みモデルのパラメーターから差し引くことが提案されています。
ただし、直観的には、これはいくつかのパラメーターが他のパラメーターよりも幻覚の原因となるということを考慮していません。
したがって、推定の不確実性を測定するフィッシャー情報行列 (の近似値) を介して、個々の重要性を重み付けすることを提案します。
この方法を弾性重量除去 (EWR) と呼びます。
Flan-T5 のさまざまなバリアントをバックボーン言語モデルとして使用して、情報探索ダイアログ生成用の複数のデータセットでメソッドを評価し、CTRL、Quark などの忠実度に関する最先端の手法とメソッドを比較します。
、DExperts、および Noisy Channel の再ランキング。
広範な自動および人間による評価は、EWR が他の指標に関してわずかなコストで忠実度を体系的に向上させることを示しています。
ただし、幻覚を思いとどまらせることだけが抽出性を高める可能性があることに気付きました。つまり、ドキュメントスパンの浅いコピーペーストは望ましくない場合があります。
したがって、2番目の主な貢献として、幻覚と抽出反応を同時に思いとどまらせるために私たちの方法を拡張できることを示します。
EWR とすべてのベースラインを再現するためのコードを公開します。
要約(オリジナル)
Ideally, dialogue systems should generate responses that are faithful to the knowledge contained in relevant documents. However, many models generate hallucinated responses instead that contradict it or contain unverifiable information. To mitigate such undesirable behaviour, it has been proposed to fine-tune a `negative expert’ on negative examples and subtract its parameters from those of a pre-trained model. However, intuitively, this does not take into account that some parameters are more responsible than others in causing hallucinations. Thus, we propose to weigh their individual importance via (an approximation of) the Fisher Information matrix, which measures the uncertainty of their estimate. We call this method Elastic Weight Removal (EWR). We evaluate our method — using different variants of Flan-T5 as a backbone language model — on multiple datasets for information-seeking dialogue generation and compare our method with state-of-the-art techniques for faithfulness, such as CTRL, Quark, DExperts, and Noisy Channel reranking. Extensive automatic and human evaluation shows that EWR systematically increases faithfulness at minor costs in terms of other metrics. However, we notice that only discouraging hallucinations may increase extractiveness, i.e. shallow copy-pasting of document spans, which can be undesirable. Hence, as a second main contribution, we show that our method can be extended to simultaneously discourage hallucinations and extractive responses. We publicly release the code for reproducing EWR and all baselines.
arxiv情報
| 著者 | Nico Daheim,Nouha Dziri,Mrinmaya Sachan,Iryna Gurevych,Edoardo M. Ponti | 
| 発行日 | 2023-03-30 17:40:30+00:00 | 
| arxivサイト | arxiv_id(pdf) | 
提供元, 利用サービス
arxiv.jp, Google
