要約
機械学習(ML)モデルの基本的な根本的な仮定は、トレーニングデータとテストデータが同じ分布からサンプリングされることです。
ただし、毎日の実践では、この仮定はしばしば破壊されます。つまり、テストデータの分布は時間とともに変化し、従来のMLモデルの適用を妨げます。
分布シフトが自然に発生するドメインの1つは、常に議論する新しいトピックを見つけるため、テキスト分類です。
この目的のために、オープンセットのテキスト分類と関連するタスクを研究する研究記事を調査します。
分布シフトの種類と対応する問題定式化の種類、つまり〜学習、ユニバーサム、ゼロショット学習、およびオープンセット学習を定義する制約に基づいて、この領域の方法を分割します。
次に、問題のセットアップごとに主要な緩和アプローチについて説明します。
最後に、私たちはいくつかの将来の仕事の方向性を特定し、最先端の境界を押し広げることを目指しています。
興味深いことに、継続的な学習は、シフトクラス分布によって引き起こされる多くの問題を解決できることがわかります。
https://github.com/eduard6421/open-set-surveyで関連する論文のリストを維持しています。
要約(オリジナル)
The basic underlying assumption of machine learning (ML) models is that the training and test data are sampled from the same distribution. However, in daily practice, this assumption is often broken, i.e.~the distribution of the test data changes over time, which hinders the application of conventional ML models. One domain where the distribution shift naturally occurs is text classification, since people always find new topics to discuss. To this end, we survey research articles studying open-set text classification and related tasks. We divide the methods in this area based on the constraints that define the kind of distribution shift and the corresponding problem formulation, i.e.~learning with the Universum, zero-shot learning, and open-set learning. We next discuss the predominant mitigation approaches for each problem setup. Finally, we identify several future work directions, aiming to push the boundaries beyond the state of the art. Interestingly, we find that continual learning can solve many of the issues caused by the shifting class distribution. We maintain a list of relevant papers at https://github.com/Eduard6421/Open-Set-Survey.
arxiv情報
著者 | Adriana Valentina Costache,Silviu Florin Gheorghe,Eduard Gabriel Poesina,Paul Irofti,Radu Tudor Ionescu |
発行日 | 2025-02-18 15:46:54+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google