Simple Yet Effective Synthetic Dataset Construction for Unsupervised Opinion Summarization

要約

意見要約は、多数のレビューの中で表明された意見を要約するための重要なソリューションを提供します。
ただし、注釈付きのデータが不足しているため、アスペクト固有の一般的な要約を生成することは困難です。
この作業では、アスペクト関連のレビューコンテンツで構築された合成データセットでトレーニングすることにより、アスペクト固有の意見と一般的な意見の両方の要約を生成する、2 つのシンプルで効果的な教師なしアプローチを提案します。
私たちの最初のアプローチ、Seed Words Based Leave-One-Out (SW-LOO) は、アスペクト シード ワードを完全に一致させるだけでレビューのアスペクト関連部分を識別し、SPACE で 3.4 ROUGE-L ポイント、0.5 ROUGE-1 で既存の方法よりも優れています。
側面固有の意見の要約については、OPOSUM+ を参照してください。
私たちの 2 番目のアプローチである自然言語推論ベースの Leave-One-Out (NLI-LOO) は、シード ワードを使用せずに、より一般的な設定で NLI モデルを利用してアスペクト関連の文を識別し、アスペクトの SPACE で既存のアプローチよりも 1.2 ROUGE-L ポイント優れています。
-特定の意見の要約であり、他の指標で競争力を維持します。

要約(オリジナル)

Opinion summarization provides an important solution for summarizing opinions expressed among a large number of reviews. However, generating aspect-specific and general summaries is challenging due to the lack of annotated data. In this work, we propose two simple yet effective unsupervised approaches to generate both aspect-specific and general opinion summaries by training on synthetic datasets constructed with aspect-related review contents. Our first approach, Seed Words Based Leave-One-Out (SW-LOO), identifies aspect-related portions of reviews simply by exact-matching aspect seed words and outperforms existing methods by 3.4 ROUGE-L points on SPACE and 0.5 ROUGE-1 point on OPOSUM+ for aspect-specific opinion summarization. Our second approach, Natural Language Inference Based Leave-One-Out (NLI-LOO) identifies aspect-related sentences utilizing an NLI model in a more general setting without using seed words and outperforms existing approaches by 1.2 ROUGE-L points on SPACE for aspect-specific opinion summarization and remains competitive on other metrics.

arxiv情報

著者 Ming Shen,Jie Ma,Shuai Wang,Yogarshi Vyas,Kalpit Dixit,Miguel Ballesteros,Yassine Benajiba
発行日 2023-03-21 08:08:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク