Unsupervised Story Discovery from Continuous News Streams via Scalable Thematic Embedding


タイトル:Scalable Thematic Embeddingを用いた連続ニュースストリームからの教師なしストーリーの発見


– 教師なしに、連続的に流れてくるニュース記事の中に相関関係を持つストーリーを発見することは、高価な人的注釈を必要とせず、大量のニュースストリームを消化するのに役立ちます。
– 教師なしオンラインストーリー発見の既存のアプローチの共通点は、ニュース記事を記号やグラフに基づく埋め込みで表現し、これらをストーリーにインクリメンタルにクラスタ化することです。
– 最近の大規模言語モデルは、埋め込みをさらに改善することが期待されていますが、記事内のすべての情報を無差別にエンコードする単純な採用は、テキストリッチで進化するニュースストリームに対処するのには効果的ではありません。
– この研究では、オフシェルフの事前訓練された文エンコーダを使用して、共有された時間的テーマを考慮して動的に記事とストーリーを表現する新しいテーマ埋め込みを提案しています。
– 教師なしオンラインストーリー発見のためのアイデアを実現するために、軽量ストーリーサマリーによって駆動された、テーマと時間を意識した動的埋め込みと新規性を意識した適応型クラスタリングの2つの主要技術を備えた、拡張可能なフレームワークUSTORYを紹介します。
– 実際のニュースデータセットでの徹底した評価により、USTORYは、ベースラインよりも高いストーリー発見性能を、様々なストリーミング設定に対して堅牢で拡張可能性を持って達成します。


Unsupervised discovery of stories with correlated news articles in real-time helps people digest massive news streams without expensive human annotations. A common approach of the existing studies for unsupervised online story discovery is to represent news articles with symbolic- or graph-based embedding and incrementally cluster them into stories. Recent large language models are expected to improve the embedding further, but a straightforward adoption of the models by indiscriminately encoding all information in articles is ineffective to deal with text-rich and evolving news streams. In this work, we propose a novel thematic embedding with an off-the-shelf pretrained sentence encoder to dynamically represent articles and stories by considering their shared temporal themes. To realize the idea for unsupervised online story discovery, a scalable framework USTORY is introduced with two main techniques, theme- and time-aware dynamic embedding and novelty-aware adaptive clustering, fueled by lightweight story summaries. A thorough evaluation with real news data sets demonstrates that USTORY achieves higher story discovery performances than baselines while being robust and scalable to various streaming settings.


著者 Susik Yoon,Dongha Lee,Yunyi Zhang,Jiawei Han
発行日 2023-04-08 20:41:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CL, cs.DB, cs.IR, cs.LG パーマリンク