要約
知識対テキスト生成器は、入力された事実を忠実に記述するのに苦労することが多い。入力と矛盾する幻覚を生成したり、入力に存在しない事実を記述したりすることがある。幻覚を減らすために、我々はデコードのみの手法であるTWEAK(Think While Effectively Articulating Knowledge)を提案する。TWEAKは、各デコーディングステップで生成されたシーケンスとその将来のシーケンスを仮説として扱い、仮説検証モデル(HVM)を用いて、その仮説が入力事実によって支持される程度に基づいて各生成候補をランク付けする。我々はまず、HVMとして自然言語推論(NLI)モデルを用いてTWEAKの有効性を実証し、品質への影響を最小限に抑えて忠実度を改善したことを報告する。次に、NLIモデルを、世界で初めてのデータセットであるFATE(Fact-Aligned Textual Entailment)を用いて訓練されたタスク固有のHVMに置き換える。TWEAKを2つのジェネレータでテストしたところ、最良のTWEAK変種は、2つのモデルにおいて、忠実度(FactKB)において、分布内/分布外評価でそれぞれ平均2.24/7.17ポイント改善し、品質(BERTScore)においては0.14/0.32ポイントの低下のみであった。
要約(オリジナル)
Knowledge-to-text generators often struggle to faithfully generate descriptions for the input facts: they may produce hallucinations that contradict the input, or describe facts not present in the input. To reduce hallucinations, we propose a decoding-only method, TWEAK (Think While Effectively Articulating Knowledge), which can be integrated with any generator without retraining. TWEAK treats the generated sequences at each decoding step and its future sequences as hypotheses, and ranks each generation candidate based on the extent to which their hypotheses are supported by the input facts using a Hypothesis Verification Model (HVM). We first demonstrate the effectiveness of TWEAK by using a Natural Language Inference (NLI) model as the HVM and report improved faithfulness with a minimal impact on the quality. We then replace the NLI model with a task-specific HVM trained with a first-of-a-kind dataset, FATE (Fact-Aligned Textual Entailment), which pairs input facts with their original and perturbed descriptions. We test TWEAK with two generators, and the best TWEAK variants improve on average for the two models by 2.24/7.17 points in faithfulness (FactKB) in in/out-of-distribution evaluations, respectively, and with only a 0.14/0.32-point decline in quality (BERTScore).
arxiv情報
| 著者 | Yifu Qiu,Varun Embar,Shay B. Cohen,Benjamin Han |
| 発行日 | 2024-04-03 17:02:33+00:00 |
| arxivサイト | arxiv_id(pdf) |