要約
タイトル:スケーラブルなテーマ埋め込みを用いた連続的ニュースストリームからの教師なしストーリーの発見
要約:
– 大量のニュースストリームを人間の注釈を必要とせずに理解するため、関連するニュース記事を含むストーリーの教師なし発見が求められる。
– これまでの教師なしオンラインストーリーの発見のアプローチは、ニュース記事をシンボリックもしくはグラフベースの埋め込みで表現し、ストーリーにクラスタリングすることであった。
– 最近の大規模言語モデルは、埋め込みを改善することが期待されているが、記事内のすべての情報を無差別に符号化することは、テキスト豊富な進化中のニュースストリームを扱うのに効果的ではない。
– 本研究では、共有される時間的テーマを考慮して記事とストーリーを動的に表現する新しいテーマ埋め込みを提案している。
– 教師なしオンラインストーリー発見のアイデアを実現するために、ライトウェイトなストーリーの要約を基に、テーマと時間の可視性を持つ動的な埋め込みと、新規性に応じた適応的なクラスタリングを用いたスケーラブルなフレームワークUSTORYを導入した。
– 実際のニュースデータセットによる評価により、USTORYはベースラインよりも高いストーリー発掘の性能を発揮しながら、様々なストリーミング設定に対して堅牢性とスケーラビリティを持っていることが示された。
要約(オリジナル)
Unsupervised discovery of stories with correlated news articles in real-time helps people digest massive news streams without expensive human annotations. A common approach of the existing studies for unsupervised online story discovery is to represent news articles with symbolic- or graph-based embedding and incrementally cluster them into stories. Recent large language models are expected to improve the embedding further, but a straightforward adoption of the models by indiscriminately encoding all information in articles is ineffective to deal with text-rich and evolving news streams. In this work, we propose a novel thematic embedding with an off-the-shelf pretrained sentence encoder to dynamically represent articles and stories by considering their shared temporal themes. To realize the idea for unsupervised online story discovery, a scalable framework USTORY is introduced with two main techniques, theme- and time-aware dynamic embedding and novelty-aware adaptive clustering, fueled by lightweight story summaries. A thorough evaluation with real news data sets demonstrates that USTORY achieves higher story discovery performances than baselines while being robust and scalable to various streaming settings.
arxiv情報
| 著者 | Susik Yoon,Dongha Lee,Yunyi Zhang,Jiawei Han |
| 発行日 | 2023-05-04 04:36:23+00:00 |
| arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, OpenAI