要約
タイトル:スケーラブルなテーマ埋め込みを用いた連続ニュースストリームからの非監督型ストーリー発見
要約:
– 無料の人的注釈なしに相関するニュース記事でストーリーを継続的に発見することは、実時間で巨大なニュース品質を理解する人々を支援することができます。
– 既存研究の中で、ストーリー発見の非監督型オンラインアプローチは、ニュース記事をシンボリックまたはグラフベースの埋め込みで表現し、インクリメンタルにストーリーに分類することです。
– 最近の大規模言語モデルは、埋め込みをさらに改善することが期待されていますが、記事のすべての情報を無差別にエンコードすることによって、テキスト豊富で進化するニュースストリームに対処することは効果的ではありません。
– 本研究では、オフシェルフの事前訓練済み文エンコーダを使用して、記事とストーリーを共有された時間的なテーマを考慮しながら動的に表現する新しいテーマ埋め込みを提案します。
– 非監督型オンラインストーリー発見のためには、ホスティングする軽量なストーリー要約を導入し、テーマ・時間に注意した埋め込みと、新しさに配慮した適応的なクラスタリングの2つの主要な技術を備えたスケーラブルなフレームワークUSTORYが導入されています。
– 実際のニュースデータセットでの詳細な評価により、USTORYは、ベースラインよりも高いストーリー発見パフォーマンスを発揮し、さまざまなストリーミング設定に対して堅牢でスケーラブルであることが示されています。
要約(オリジナル)
Unsupervised discovery of stories with correlated news articles in real-time helps people digest massive news streams without expensive human annotations. A common approach of the existing studies for unsupervised online story discovery is to represent news articles with symbolic- or graph-based embedding and incrementally cluster them into stories. Recent large language models are expected to improve the embedding further, but a straightforward adoption of the models by indiscriminately encoding all information in articles is ineffective to deal with text-rich and evolving news streams. In this work, we propose a novel thematic embedding with an off-the-shelf pretrained sentence encoder to dynamically represent articles and stories by considering their shared temporal themes. To realize the idea for unsupervised online story discovery, a scalable framework USTORY is introduced with two main techniques, theme- and time-aware dynamic embedding and novelty-aware adaptive clustering, fueled by lightweight story summaries. A thorough evaluation with real news data sets demonstrates that USTORY achieves higher story discovery performances than baselines while being robust and scalable to various streaming settings.
arxiv情報
著者 | Susik Yoon,Dongha Lee,Yunyi Zhang,Jiawei Han |
発行日 | 2023-04-22 15:48:07+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, OpenAI