Concept Drift Adaptation in Text Stream Mining Settings: A Comprehensive Review

要約

インターネットの出現と普及により、人々はレビュー、ソーシャルメディアへの投稿、ニュース記事など、さまざまな方法でテキスト データを作成し、配布するようになりました。
その結果、特にソーシャルメディアの投稿は人々の意見や興味などを示すソーシャルセンサーとして機能するため、多くの研究者がテキストデータのパターンを発見することに取り組んできました。しかし、自然言語処理に関するタスクのほとんどは、従来の機械学習手法を使用して対処されています。
そして静的データセット。
この設定では、現実と一致しない可能性がある古いデータセットや、時間の経過とともにパフォーマンスが低下する古いモデルなど、いくつかの問題が発生する可能性があります。
コンセプト ドリフトは、これらの問題を強調するもう 1 つの側面であり、データの分布とパターンの変化に対応します。
テキスト ストリームのシナリオでは、高速でデータが順次到着するなどの特性により、さらに困難になります。
さらに、このタイプのシナリオのモデルは、テキストを限られた時間保存し、メモリ消費量を少なくすることでストリームから学習しながら、上記の制約に従う必要があります。
この研究では、テキスト ストリーム シナリオにおける概念ドリフト適応に関する体系的な文献レビューを実行しました。
明確に定義された基準を考慮して、テキスト ドリフト カテゴリ、テキスト ドリフト検出の種類、モデル更新メカニズム、対処されたストリーム マイニング タスク、テキスト表現の種類、テキスト表現更新メカニズムなどの側面を解明するために 40 件の論文を選択しました。
さらに、ドリフトの可視化とシミュレーションについて議論し、選択された論文で使用されている現実世界のデータセットをリストしました。
したがって、このペーパーでは、テキスト ストリーム マイニング シナリオにおける概念ドリフト適応を包括的にレビューします。

要約(オリジナル)

Due to the advent and increase in the popularity of the Internet, people have been producing and disseminating textual data in several ways, such as reviews, social media posts, and news articles. As a result, numerous researchers have been working on discovering patterns in textual data, especially because social media posts function as social sensors, indicating peoples’ opinions, interests, etc. However, most tasks regarding natural language processing are addressed using traditional machine learning methods and static datasets. This setting can lead to several problems, such as an outdated dataset, which may not correspond to reality, and an outdated model, which has its performance degrading over time. Concept drift is another aspect that emphasizes these issues, which corresponds to data distribution and pattern changes. In a text stream scenario, it is even more challenging due to its characteristics, such as the high speed and data arriving sequentially. In addition, models for this type of scenario must adhere to the constraints mentioned above while learning from the stream by storing texts for a limited time and consuming low memory. In this study, we performed a systematic literature review regarding concept drift adaptation in text stream scenarios. Considering well-defined criteria, we selected 40 papers to unravel aspects such as text drift categories, types of text drift detection, model update mechanism, the addressed stream mining tasks, types of text representations, and text representation update mechanism. In addition, we discussed drift visualization and simulation and listed real-world datasets used in the selected papers. Therefore, this paper comprehensively reviews the concept drift adaptation in text stream mining scenarios.

arxiv情報

著者 Cristiano Mesquita Garcia,Ramon Simoes Abilio,Alessandro Lameiras Koerich,Alceu de Souza Britto Jr.,Jean Paul Barddal
発行日 2023-12-05 17:15:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.IR, cs.LG パーマリンク