Incremental Extractive Opinion Summarization Using Cover Trees

要約

抽出的な意見の要約には、レビュー セット内で一般的な意見を捉えた代表的な文を抽出することによって、エンティティ (製品のレビューなど) に関するテキストの要約を自動的に作成することが含まれます。
通常、オンライン マーケットプレイスではユーザー レビューが時間の経過とともに蓄積され、顧客に最新の情報を提供するために意見の概要を定期的に更新する必要があります。
この研究では、基礎となるレビューセットが時間の経過とともに進化する増分設定で、抽出的な意見を要約するタスクを研究します。
最先端の抽出意見要約アプローチの多くは、CentroidRank などの中心性に基づいています (Radev et al., 2004; Chowdhury et al., 2022)。
CentroidRank は、表現空間内の重心に最も近いレビュー文のサブセットを要約として選択することにより、抽出的な要約を実行します。
ただし、これらの方法は、レビューが一度に 1 つずつ届く増分設定では効率的に動作できません。
この論文では、増分設定で CentroidRank の概要を正確に計算するための効率的なアルゴリズムを紹介します。
私たちのアプローチである CoverSumm は、カバー ツリー内のレビュー表現のインデックス付けと、候補となる要約レビュー文のリザーバーの維持に依存しています。
CoverSumm の有効性は、実行時間の理論的および経験的分析によって裏付けられています。
経験的に、さまざまなデータのコレクション (実際のデータと、スケーリングの考慮事項を示すために作成された合成データの両方) で、CoverSumm がベースライン手法よりも最大 36 倍高速であり、データ分布の微妙な変化に適応できることを実証しました。
また、生成された概要の人間による評価も実施し、CoverSumm が基礎となるレビュー セットと一致する有益な概要を生成できることを確認しました。

要約(オリジナル)

Extractive opinion summarization involves automatically producing a summary of text about an entity (e.g., a product’s reviews) by extracting representative sentences that capture prevalent opinions in the review set. Typically, in online marketplaces user reviews accumulate over time, and opinion summaries need to be updated periodically to provide customers with up-to-date information. In this work, we study the task of extractive opinion summarization in an incremental setting, where the underlying review set evolves over time. Many of the state-of-the-art extractive opinion summarization approaches are centrality-based, such as CentroidRank (Radev et al., 2004; Chowdhury et al., 2022). CentroidRank performs extractive summarization by selecting a subset of review sentences closest to the centroid in the representation space as the summary. However, these methods are not capable of operating efficiently in an incremental setting, where reviews arrive one at a time. In this paper, we present an efficient algorithm for accurately computing the CentroidRank summaries in an incremental setting. Our approach, CoverSumm, relies on indexing review representations in a cover tree and maintaining a reservoir of candidate summary review sentences. CoverSumm’s efficacy is supported by a theoretical and empirical analysis of running time. Empirically, on a diverse collection of data (both real and synthetically created to illustrate scaling considerations), we demonstrate that CoverSumm is up to 36x faster than baseline methods, and capable of adapting to nuanced changes in data distribution. We also conduct human evaluations of the generated summaries and find that CoverSumm is capable of producing informative summaries consistent with the underlying review set.

arxiv情報

著者 Somnath Basu Roy Chowdhury,Nicholas Monath,Avinava Dubey,Manzil Zaheer,Andrew McCallum,Amr Ahmed,Snigdha Chaturvedi
発行日 2024-04-12 16:13:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク