Unsupervised Story Discovery from Continuous News Streams via Scalable Thematic Embedding

要約

タイトル:スケーラブルなテーマ埋め込みを用いた連続ニュースストリームからの非監督型ストーリー発見

要約:
– 無料の人的注釈なしに相関するニュース記事でストーリーを継続的に発見することは、実時間で巨大なニュース品質を理解する人々を支援することができます。
– 既存研究の中で、ストーリー発見の非監督型オンラインアプローチは、ニュース記事をシンボリックまたはグラフベースの埋め込みで表現し、インクリメンタルにストーリーに分類することです。
– 最近の大規模言語モデルは、埋め込みをさらに改善することが期待されていますが、記事のすべての情報を無差別にエンコードすることによって、テキスト豊富で進化するニュースストリームに対処することは効果的ではありません。
– 本研究では、オフシェルフの事前訓練済み文エンコーダを使用して、記事とストーリーを共有された時間的なテーマを考慮しながら動的に表現する新しいテーマ埋め込みを提案します。
– 非監督型オンラインストーリー発見のためには、ホスティングする軽量なストーリー要約を導入し、テーマ・時間に注意した埋め込みと、新しさに配慮した適応的なクラスタリングの2つの主要な技術を備えたスケーラブルなフレームワークUSTORYが導入されています。
– 実際のニュースデータセットでの詳細な評価により、USTORYは、ベースラインよりも高いストーリー発見パフォーマンスを発揮し、さまざまなストリーミング設定に対して堅牢でスケーラブルであることが示されています。

要約(オリジナル)

Unsupervised discovery of stories with correlated news articles in real-time helps people digest massive news streams without expensive human annotations. A common approach of the existing studies for unsupervised online story discovery is to represent news articles with symbolic- or graph-based embedding and incrementally cluster them into stories. Recent large language models are expected to improve the embedding further, but a straightforward adoption of the models by indiscriminately encoding all information in articles is ineffective to deal with text-rich and evolving news streams. In this work, we propose a novel thematic embedding with an off-the-shelf pretrained sentence encoder to dynamically represent articles and stories by considering their shared temporal themes. To realize the idea for unsupervised online story discovery, a scalable framework USTORY is introduced with two main techniques, theme- and time-aware dynamic embedding and novelty-aware adaptive clustering, fueled by lightweight story summaries. A thorough evaluation with real news data sets demonstrates that USTORY achieves higher story discovery performances than baselines while being robust and scalable to various streaming settings.

arxiv情報

著者 Susik Yoon,Dongha Lee,Yunyi Zhang,Jiawei Han
発行日 2023-04-22 15:48:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CL, cs.DB, cs.IR, cs.LG パーマリンク