要約
トピック モデルは、過去 2 回の減衰にわたって、従来のベイジアン確率モデルからニューラル トピック モデル (NTM) に進化しました。
NTM は、特定のコーパスでトレーニングおよびテストされた場合に有望なパフォーマンスを達成しましたが、コーパス全体にわたる汎化能力はほとんど研究されていません。
実際には、ソース コーパスでトレーニングされた NTM は、再トレーニングすることなく、別のターゲット コーパス内の文書に対して高品質なトピック表現を生成できるとよく期待されます。
この作業では、NTM をさらに改善して、その利点がコーパスとタスク全体に確実に一般化されるようにすることを目指しています。
そのために、NTM をトレーニングするときに意味論的な距離を最小限に抑えて、類似した文書をモデル化することを提案します。
具体的には、トレーニング中のデータ拡張によって同様のドキュメントが作成されます。
ドキュメント間の意味論的な距離は、トピック表現間の最適トランスポート (OT) 距離を計算する階層トピック トランスポート ディスタンス (HOTT) によって測定されます。
私たちのフレームワークは、プラグ アンド プレイ モジュールとしてほとんどの NTM に簡単に適用できます。
広範な実験により、私たちのフレームワークがコーパス全体にわたる神経の局所表現に関する一般化能力を大幅に向上させることが示されました。
要約(オリジナル)
Topic models have evolved from conventional Bayesian probabilistic models to Neural Topic Models (NTMs) over the last two decays. Although NTMs have achieved promising performance when trained and tested on a specific corpus, their generalisation ability across corpora is rarely studied. In practice, we often expect that an NTM trained on a source corpus can still produce quality topical representation for documents in a different target corpus without retraining. In this work, we aim to improve NTMs further so that their benefits generalise reliably across corpora and tasks. To do so, we propose to model similar documents by minimising their semantical distance when training NTMs. Specifically, similar documents are created by data augmentation during training; The semantical distance between documents is measured by the Hierarchical Topic Transport Distance (HOTT), which computes the Optimal Transport (OT) distance between the topical representations. Our framework can be readily applied to most NTMs as a plug-and-play module. Extensive experiments show that our framework significantly improves the generalisation ability regarding neural topical representation across corpora.
arxiv情報
著者 | Xiaohao Yang,He Zhao,Dinh Phung,Lan Du |
発行日 | 2023-07-24 07:17:33+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google