Understanding Visual Feature Reliance through the Lens of Complexity

要約

最近の研究では、深層学習モデルの単純な機能を好む帰納的バイアスがショートカット学習の原因の 1 つである可能性があることが示唆されています。
しかし、モデルが学習する無数の機能の複雑性を理解することへの焦点は限られています。
この研究では、$\mathscr{V}$ 情報に基づいて特徴の複雑さを定量化し、特徴を抽出するために複雑な計算変換が必要かどうかを把握するための新しい指標を導入します。
この $\mathscr{V}$ 情報メトリクスを使用して、標準的な ImageNet でトレーニングされた視覚モデルから抽出された、最後から 2 番目の層の方向として表される 10,000 個の特徴の複雑さを分析します。
私たちの研究は 4 つの重要な質問に取り組んでいます。まず、複雑さの関数として特徴がどのように見えるかを尋ね、モデル内に存在する単純な特徴から複雑な特徴までの範囲を見つけます。
次に、トレーニング中に機能がいつ学習されるかを尋ねます。
トレーニングの初期段階では単純な特徴が優勢であり、より複雑な特徴が徐々に出現することがわかります。
3 番目に、単純なフィーチャと複雑なフィーチャがネットワーク内のどこに流れるかを調査し、単純なフィーチャが残りの接続を介してビジュアル階層をバイパスする傾向があることを発見しました。
4 番目に、機能の複雑さとネットワークの意思決定におけるその重要性との関係を調査します。
複雑な機能は重要性が低い傾向にあることがわかりました。
驚くべきことに、重要な特徴は、沈降プロセスなど、トレーニング中の初期の層でアクセスできるようになり、これらの基本要素に基づいてモデルを構築できるようになります。

要約(オリジナル)

Recent studies suggest that deep learning models inductive bias towards favoring simpler features may be one of the sources of shortcut learning. Yet, there has been limited focus on understanding the complexity of the myriad features that models learn. In this work, we introduce a new metric for quantifying feature complexity, based on $\mathscr{V}$-information and capturing whether a feature requires complex computational transformations to be extracted. Using this $\mathscr{V}$-information metric, we analyze the complexities of 10,000 features, represented as directions in the penultimate layer, that were extracted from a standard ImageNet-trained vision model. Our study addresses four key questions: First, we ask what features look like as a function of complexity and find a spectrum of simple to complex features present within the model. Second, we ask when features are learned during training. We find that simpler features dominate early in training, and more complex features emerge gradually. Third, we investigate where within the network simple and complex features flow, and find that simpler features tend to bypass the visual hierarchy via residual connections. Fourth, we explore the connection between features complexity and their importance in driving the networks decision. We find that complex features tend to be less important. Surprisingly, important features become accessible at earlier layers during training, like a sedimentation process, allowing the model to build upon these foundational elements.

arxiv情報

著者 Thomas Fel,Louis Bethune,Andrew Kyle Lampinen,Thomas Serre,Katherine Hermann
発行日 2024-07-08 16:21:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク