Open Domain Multi-document Summarization: A Comprehensive Study of Model Brittleness under Retrieval

要約

マルチドキュメント要約 (MDS) は、トピック関連ドキュメントのセットが入力として提供されることを前提としています。
実際には、このドキュメント セットは常に利用できるわけではありません。
必要な情報、つまり質問やトピックのステートメント、つまり「オープンドメイン」MDS と呼ばれる設定があれば、それを取得する必要があります。
私たちは、タスクを形式化し、既存のデータセット、リトリーバー、サマライザーを使用してブートストラップすることで、このより困難な設定を研究します。
広範な自動評価と人間による評価により、次のことが判明しました。(1) 最先端のサマライザは、オープンドメイン MDS に適用するとパフォーマンスが大幅に低下する、(2) オープンドメイン設定で追加のトレーニングを行うと、この感度が低下する可能性があります。
(3) サマライザは、重複文書の取得や取得された文書の順序には影響を受けませんが、無関係な文書の取得などの他のエラーには非常に敏感です。
私たちの結果に基づいて、オープンドメイン MDS に関する将来の作業を可能にする実用的なガイドラインを提供します。
要約するために取得したドキュメントの数を選択する方法。
私たちの結果は、オープンドメイン設定のさらなる進歩には、新しい検索および要約方法と、トレーニングと評価のための注釈付きリソースが必要であることを示唆しています。

要約(オリジナル)

Multi-document summarization (MDS) assumes a set of topic-related documents are provided as input. In practice, this document set is not always available; it would need to be retrieved given an information need, i.e. a question or topic statement, a setting we dub ‘open-domain’ MDS. We study this more challenging setting by formalizing the task and bootstrapping it using existing datasets, retrievers and summarizers. Via extensive automatic and human evaluation, we determine: (1) state-of-the-art summarizers suffer large reductions in performance when applied to open-domain MDS, (2) additional training in the open-domain setting can reduce this sensitivity to imperfect retrieval, and (3) summarizers are insensitive to the retrieval of duplicate documents and the order of retrieved documents, but highly sensitive to other errors, like the retrieval of irrelevant documents. Based on our results, we provide practical guidelines to enable future work on open-domain MDS, e.g. how to choose the number of retrieved documents to summarize. Our results suggest that new retrieval and summarization methods and annotated resources for training and evaluation are necessary for further progress in the open-domain setting.

arxiv情報

著者 John Giorgi,Luca Soldaini,Bo Wang,Gary Bader,Kyle Lo,Lucy Lu Wang,Arman Cohan
発行日 2023-10-25 13:25:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク