要約
トレーニング中のパフォーマンスが類似している2つの機械学習モデルは、実際のパフォーマンス特性が大きく異なる可能性があることはよく知られていますが、よく理解されていません。
これは、モデルの内部にとらえどころのない違いがあり、表現の多重度(RM)として現れることを意味します。
RMを分析するための概念的および実験的なセットアップを紹介し、特定のトレーニング方法が、特異ベクトル正準相関分析(SVCCA)を介したアクティブ化の類似性によって測定された他の方法よりも体系的に大きなRMをもたらすことを示します。
さらに、i.i.d。の分散によって測定された予測多重度と相関させます。
4つの一般的な画像データセットでの分布外テストセットの予測。
モデルにおけるRMの体系的な測定と、除去ではなく最大の曝露を求めます。
コンファビュレーター分析などの定性的ツールは、RM効果の理解と利害関係者への伝達を容易にすることができます。
要約(オリジナル)
It is prevalent and well-observed, but poorly understood, that two machine learning models with similar performance during training can have very different real-world performance characteristics. This implies elusive differences in the internals of the models, manifesting as representational multiplicity (RM). We introduce a conceptual and experimental setup for analyzing RM and show that certain training methods systematically result in greater RM than others, measured by activation similarity via singular vector canonical correlation analysis (SVCCA). We further correlate it with predictive multiplicity measured by the variance in i.i.d. and out-of-distribution test set predictions, in four common image data sets. We call for systematic measurement and maximal exposure, not elimination, of RM in models. Qualitative tools such as our confabulator analysis can facilitate understanding and communication of RM effects to stakeholders.
arxiv情報
著者 | Ari Heljakka,Martin Trapp,Juho Kannala,Arno Solin |
発行日 | 2022-06-17 16:53:12+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google