Understanding The Robustness of Self-supervised Learning Through Topic Modeling

要約

自己教師あり学習により、多くの NLP タスクのパフォーマンスが大幅に向上しました。
ただし、自己教師あり学習が有用な表現をどのように発見できるのか、確率モデルなどの従来のアプローチよりも優れている理由は、まだほとんどわかっていません。
このホワイト ペーパーでは、トピック モデリングのコンテキストに焦点を当て、自己教師あり学習の重要な利点を強調します。トピック モデルによって生成されたデータに適用すると、自己教師あり学習は特定のモデルに気付かない可能性があるため、影響を受けにくくなります。
モデルの誤記。
特に、再構成または対照サンプルに基づいて一般的に使用される自己教師付き目標は、一般的なトピック モデルの有用な事後情報を両方とも回復できることを証明します。
経験的に、同じ目的が、正しいモデルを使用した事後推論と同等に機能し、誤って指定されたモデルを使用した事後推論よりも優れていることを示しています。

要約(オリジナル)

Self-supervised learning has significantly improved the performance of many NLP tasks. However, how can self-supervised learning discover useful representations, and why is it better than traditional approaches such as probabilistic models are still largely unknown. In this paper, we focus on the context of topic modeling and highlight a key advantage of self-supervised learning – when applied to data generated by topic models, self-supervised learning can be oblivious to the specific model, and hence is less susceptible to model misspecification. In particular, we prove that commonly used self-supervised objectives based on reconstruction or contrastive samples can both recover useful posterior information for general topic models. Empirically, we show that the same objectives can perform on par with posterior inference using the correct model, while outperforming posterior inference using misspecified models.

arxiv情報

著者 Zeping Luo,Shiyou Wu,Cindy Weng,Mo Zhou,Rong Ge
発行日 2023-02-28 01:24:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG, stat.ML パーマリンク