Evaluating and Improving Factuality in Multimodal Abstractive Summarization

要約

抽象的な文書要約のための事実性を評価する現在のメトリクスは、人間の判断と高い相関を達成しているが、視覚モダリティを考慮していないため、視覚と言語の要約には適切ではない。我々は、画像-要約と文書-要約それぞれの間の頑健性と強い事実性検出性能を活用するために、CLIPScoreとBERTScoreの単純な重み付け結合であるCLIPBERTScoreを提案する。次に、マルチモーダルな事実性評価指標の品質を評価するためのメタ評価ベンチマークがないため、文書と画像に関する事実性の人間の判断を収集する。我々は、ゼロショット設定におけるこの2つのメトリクスの単純な組み合わせが、文書要約のための既存の事実性メトリクスよりも高い相関を達成し、既存のマルチモーダル要約メトリクスを上回り、タスクのために特に微調整された強いマルチモーダル事実性メトリクスと競合する性能を発揮することを示す。我々の徹底的な分析により、CLIPBERTScoreとその構成要素の頑健性と高い相関性が、4つの事実性評価指標ベンチマークにおいて実証された。最後に、CLIPBERTScoreの2つの実用的な応用例として、学習時に注目すべき重要な画像の選択と、マルチモーダル要約生成の自動評価と人間評価による事実性を向上させる強化学習の報酬としての応用を紹介する。我々のデータとコードは、https://github.com/meetdavidwan/faithful-multimodal-summ で公開されています。

要約(オリジナル)

Current metrics for evaluating factuality for abstractive document summarization have achieved high correlations with human judgment, but they do not account for the vision modality and thus are not adequate for vision-and-language summarization. We propose CLIPBERTScore, a simple weighted combination of CLIPScore and BERTScore to leverage the robustness and strong factuality detection performance between image-summary and document-summary, respectively. Next, due to the lack of meta-evaluation benchmarks to evaluate the quality of multimodal factuality metrics, we collect human judgments of factuality with respect to documents and images. We show that this simple combination of two metrics in the zero-shot setting achieves higher correlations than existing factuality metrics for document summarization, outperforms an existing multimodal summarization metric, and performs competitively with strong multimodal factuality metrics specifically fine-tuned for the task. Our thorough analysis demonstrates the robustness and high correlation of CLIPBERTScore and its components on four factuality metric-evaluation benchmarks. Finally, we demonstrate two practical downstream applications of our CLIPBERTScore metric: for selecting important images to focus on during training, and as a reward for reinforcement learning to improve factuality of multimodal summary generation w.r.t automatic and human evaluation. Our data and code are publicly available at https://github.com/meetdavidwan/faithful-multimodal-summ

arxiv情報

著者 David Wan,Mohit Bansal
発行日 2022-11-04 16:50:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CL, cs.CV パーマリンク