要約
進化する大規模なテキスト コーパス内の新たなトレンドや弱いシグナルを検出して追跡することは、科学文献の監視、ブランドの評判の管理、重要なインフラストラクチャの監視などのアプリケーション、さらに一般的にはあらゆる種類のテキスト ベースのイベント検出などのアプリケーションにとって不可欠です。
既存のソリューションでは、微妙なコンテキストを捉えたり、時間の経過とともに進化するパターンを動的に追跡したりできないことがよくあります。
BERTrend は新しい方法であり、オンライン設定でニューラル トピック モデリングを使用してこれらの制限に対処します。
ドキュメントの数と更新頻度の両方を考慮して、時間の経過に伴うトピックの人気を定量化する新しい指標が導入されています。
このメトリクスは、トピックをノイズ、弱い信号、または強い信号として分類し、新たなトピックや急速に成長しているトピックをさらなる調査のために警告します。
2 つの大規模な現実世界のデータセットでの実験により、ノイズを除去しながら意味のある弱い信号を正確に検出および追跡する BERTrend の能力が実証され、大規模で進化するテキスト コーパスの新たなトレンドを監視するための包括的なソリューションが提供されます。
この方法は、過去の出来事の遡及分析にも使用できます。
さらに、大規模言語モデルを BERTrend と併用すると、イベントの傾向を解釈できる効率的な手段が提供されます。
要約(オリジナル)
Detecting and tracking emerging trends and weak signals in large, evolving text corpora is vital for applications such as monitoring scientific literature, managing brand reputation, surveilling critical infrastructure and more generally to any kind of text-based event detection. Existing solutions often fail to capture the nuanced context or dynamically track evolving patterns over time. BERTrend, a novel method, addresses these limitations using neural topic modeling in an online setting. It introduces a new metric to quantify topic popularity over time by considering both the number of documents and update frequency. This metric classifies topics as noise, weak, or strong signals, flagging emerging, rapidly growing topics for further investigation. Experimentation on two large real-world datasets demonstrates BERTrend’s ability to accurately detect and track meaningful weak signals while filtering out noise, offering a comprehensive solution for monitoring emerging trends in large-scale, evolving text corpora. The method can also be used for retrospective analysis of past events. In addition, the use of Large Language Models together with BERTrend offers efficient means for the interpretability of trends of events.
arxiv情報
著者 | Allaa Boutaleb,Jerome Picault,Guillaume Grosjean |
発行日 | 2024-11-21 16:06:05+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google