要約
我々は、Claim-Dissector:事実確認と分析のための新しい潜在変数モデルを紹介します。このモデルは、与えられた主張と取得された一連の証拠を共同して識別することを学習します: (i) 与えられた主張に関連する証拠、(ii) 主張の真実性
請求。
私たちは、証拠ごとの関連性確率と、最終的な真実性確率への寄与を、解釈可能な方法で解きほぐすことを提案します。最終的な真実性確率は、証拠ごとの関連性確率の線形アンサンブルに比例します。
このようにして、最終的な予測確率に対する証拠の個々の寄与を特定できます。
証拠ごとの関連性確率において、私たちのモデルは、関連する各証拠が主張を裏付けている (S) か反駁している (R) かをさらに区別できます。
これにより、S/R 確率が最終的な評決にどの程度寄与するかを定量化したり、不一致の証拠を検出したりすることができます。
その解釈可能な性質にも関わらず、私たちのシステムは、一般的な 2 段階システム パイプラインと比較して、使用するパラメーターが大幅に少ないにもかかわらず、FEVER データセットで最先端の結果と同等の結果を達成します。
また、FAVIQ および RealFC データセットに関する新しい最先端の情報も提供します。
さらに、私たちの分析は、私たちのモデルが粗粒度の監視を使用しながら、粒度の細かい関連性の手がかりを学習できることを示しており、それを 2 つの方法で実証します。
(i) 段落レベルの関連性監視のみを使用しながら、モデルが競合する文想起を達成できることを示します。
(ii) 関連性の最も細かい粒度に向かって進むと、私たちのモデルがトークン レベルで関連性を識別できることを示します。
これを行うために、トークンレベルの解釈可能性に焦点を当てた新しいベンチマーク TLR-FEVER を提示します。人間は、判断を下す際に重要であると考えられる関連証拠のトークンに注釈を付けます。
次に、これらのアノテーションがモデルが焦点を当てているトークンにどの程度似ているかを測定します。
要約(オリジナル)
We present Claim-Dissector: a novel latent variable model for fact-checking and analysis, which given a claim and a set of retrieved evidences jointly learns to identify: (i) the relevant evidences to the given claim, (ii) the veracity of the claim. We propose to disentangle the per-evidence relevance probability and its contribution to the final veracity probability in an interpretable way — the final veracity probability is proportional to a linear ensemble of per-evidence relevance probabilities. In this way, the individual contributions of evidences towards the final predicted probability can be identified. In per-evidence relevance probability, our model can further distinguish whether each relevant evidence is supporting (S) or refuting (R) the claim. This allows to quantify how much the S/R probability contributes to the final verdict or to detect disagreeing evidence. Despite its interpretable nature, our system achieves results competitive with state-of-the-art on the FEVER dataset, as compared to typical two-stage system pipelines, while using significantly fewer parameters. It also sets new state-of-the-art on FAVIQ and RealFC datasets. Furthermore, our analysis shows that our model can learn fine-grained relevance cues while using coarse-grained supervision, and we demonstrate it in 2 ways. (i) We show that our model can achieve competitive sentence recall while using only paragraph-level relevance supervision. (ii) Traversing towards the finest granularity of relevance, we show that our model is capable of identifying relevance at the token level. To do this, we present a new benchmark TLR-FEVER focusing on token-level interpretability — humans annotate tokens in relevant evidences they considered essential when making their judgment. Then we measure how similar are these annotations to the tokens our model is focusing on.
arxiv情報
| 著者 | Martin Fajcik,Petr Motlicek,Pavel Smrz |
| 発行日 | 2023-05-25 15:44:09+00:00 |
| arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google