要約
データが複数のソースによって生成される場合、従来のトレーニング方法は、各ソースの信頼性が等しいと仮定してモデルを更新し、個々のデータ品質を考慮しません。
ただし、多くのアプリケーションでは、情報源には、ニューラルネットワークのパフォーマンスに悪影響を与える可能性のある信頼性のさまざまなレベルがあります。
重要な問題は、多くの場合、個々のソースのデータの品質がトレーニング中に知られていないことです。
騒々しいデータの存在下でモデルをトレーニングするための以前の方法では、ソースラベルが提供できる追加情報を使用していません。
監視された学習に焦点を当てて、私たちは、可能性のある抑制によって動機付けられた動的な再重視戦略を使用して、ソースの推定信頼性に比例した多くのステップについて、各データソースのニューラルネットワークをトレーニングすることを目指しています。
このようにして、ウォームアップ中にすべてのソースでのトレーニングを許可し、モデルがノイズに過剰に輝くことが示されている最終的なトレーニング段階での信頼性の低いソースの学習を減らします。
多様な実験を通じて、これにより、信頼性の高い信頼できないデータソースの混合物でトレーニングされたときにモデルのパフォーマンスが大幅に向上し、信頼できるソースのみでモデルがトレーニングされている場合のパフォーマンスを維持できることが示されています。
要約(オリジナル)
When data is generated by multiple sources, conventional training methods update models assuming equal reliability for each source and do not consider their individual data quality. However, in many applications, sources have varied levels of reliability that can have negative effects on the performance of a neural network. A key issue is that often the quality of the data for individual sources is not known during training. Previous methods for training models in the presence of noisy data do not make use of the additional information that the source label can provide. Focusing on supervised learning, we aim to train neural networks on each data source for a number of steps proportional to the source’s estimated reliability by using a dynamic re-weighting strategy motivated by likelihood tempering. This way, we allow training on all sources during the warm-up and reduce learning on less reliable sources during the final training stages, when it has been shown that models overfit to noise. We show through diverse experiments that this can significantly improve model performance when trained on mixtures of reliable and unreliable data sources, and maintain performance when models are trained on reliable sources only.
arxiv情報
著者 | Alexander Capstick,Francesca Palermo,Tianyu Cui,Payam Barnaghi |
発行日 | 2025-02-14 17:35:40+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google