要約
現実世界のソーシャルメディアでは言語機能が進化しており、その結果、ダイナミクスにおけるテキスト分類のパフォーマンスが低下しています。
この課題に対処するために、私たちは過去のデータに基づいてトレーニングされたモデルを将来テストする時間的適応を研究します。
これまでの研究のほとんどは、継続的な事前トレーニングや知識の更新に焦点を当てていたため、ノイズの多いソーシャル メディア データに対するパフォーマンスが低下する可能性がありました。
この問題に取り組むために、私たちは潜在トピック進化のモデリングを通じて機能変更を反映し、新しいモデル VIBE: 進化のための変分情報ボトルネックを提案します。
具体的には、まず 2 つの情報ボトルネック (IB) 正則化子を使用して、過去と将来のトピックを区別します。
次に、区別されたトピックは、タイムスタンプとクラス ラベル予測を使用したマルチタスク トレーニングを介して適応機能として機能します。
適応学習では、VIBE はトレーニング データ時間より後に作成されたオンライン ストリームから取得したラベルなしデータを利用します。
3 つの分類タスクに関する大規模な Twitter 実験により、わずか 3% のデータを含む私たちのモデルが、これまでの最先端の継続的事前トレーニング手法を大幅に上回るパフォーマンスを示しました。
要約(オリジナル)
Language features are evolving in real-world social media, resulting in the deteriorating performance of text classification in dynamics. To address this challenge, we study temporal adaptation, where models trained on past data are tested in the future. Most prior work focused on continued pretraining or knowledge updating, which may compromise their performance on noisy social media data. To tackle this issue, we reflect feature change via modeling latent topic evolution and propose a novel model, VIBE: Variational Information Bottleneck for Evolutions. Concretely, we first employ two Information Bottleneck (IB) regularizers to distinguish past and future topics. Then, the distinguished topics work as adaptive features via multi-task training with timestamp and class label prediction. In adaptive learning, VIBE utilizes retrieved unlabeled data from online streams created posterior to training data time. Substantial Twitter experiments on three classification tasks show that our model, with only 3% of data, significantly outperforms previous state-of-the-art continued-pretraining methods.
arxiv情報
著者 | Yuji Zhang,Jing Li,Wenjie Li |
発行日 | 2023-10-19 13:23:45+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google