Do Neural Topic Models Really Need Dropout? Analysis of the Effect of Dropout in Topic Modeling

要約

ドロップアウトは、小さなデータセットでトレーニングされた大規模なフィードフォワード ニューラル ネットワークのオーバーフィッティングの問題を解決するために広く使用されている正則化のトリックです。
この正則化トリックの有効性は、畳み込みニューラル ネットワークに対して広く研究されていますが、教師なしモデル、特に VAE ベースのニューラル トピック モデルに対する分析は不足しています。
このホワイト ペーパーでは、広く使用されている 3 つのニューラル トピック モデル、すなわちコンテキスト化トピック モデル (CTM)、ProdLDA、および埋め込みトピック モデル (ETM) における VAE アーキテクチャのエンコーダーおよびデコーダーにおけるドロップアウトの結果を分析しました。
公開されている 4 つのデータセットを使用します。
生成されたトピックの品質と予測パフォーマンスの観点から、これらのモデルに対するドロップアウト効果を特徴付けます。

要約(オリジナル)

Dropout is a widely used regularization trick to resolve the overfitting issue in large feedforward neural networks trained on a small dataset, which performs poorly on the held-out test subset. Although the effectiveness of this regularization trick has been extensively studied for convolutional neural networks, there is a lack of analysis of it for unsupervised models and in particular, VAE-based neural topic models. In this paper, we have analyzed the consequences of dropout in the encoder as well as in the decoder of the VAE architecture in three widely used neural topic models, namely, contextualized topic model (CTM), ProdLDA, and embedded topic model (ETM) using four publicly available datasets. We characterize the dropout effect on these models in terms of the quality and predictive performance of the generated topics.

arxiv情報

著者 Suman Adhya,Avishek Lahiri,Debarshi Kumar Sanyal
発行日 2023-03-28 13:45:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク