要約
長期にわたる学習は、その実際的な重要性のために注目を集めています。
さまざまなアプローチの中で、微調整されたパラダイムは、基礎モデルの出現に大きな関心を集めています。
ただし、ほとんどの既存の方法は、主にこれらのモデルからの知識を活用することに焦点を当てており、依存している不均衡なトレーニングデータによって導入された固有のバイアスを見落としています。
この論文では、トレーニング前のこのような不均衡が、長期にわたってダウンストリームタスクにどのように影響するかを調べます。
具体的には、パラメーターの不均衡とデータの不均衡として、下流タスクの基礎モデルに継承された不均衡バイアスが見つかります。
微調整中、パラメーターの不均衡がより重要な役割を果たしているのに対し、既存の再バランス戦略を使用してデータの不均衡を軽減できることがわかります。
さらに、データの不均衡とは異なり、トレーニング中にロジットの調整などの現在の再バランス技術によって、パラメーターの不均衡が効果的に対処できないことがわかります。
両方の不均衡に同時に取り組むために、因果学習に関する方法を構築し、不完全なセマンティックファクターを交絡因子と見なし、入力サンプルとラベルの間に偽の相関をもたらします。
これの否定的な影響を解決するために、データの相関を単に適合させるのではなく、入力サンプルとラベルの間の真の因果効果を学習する新しいバックドア調整方法を提案します。
特に、各データセットで約1.67%\%$の平均パフォーマンスの増加を達成します。
要約(オリジナル)
Long-tailed learning has garnered increasing attention due to its practical significance. Among the various approaches, the fine-tuning paradigm has gained considerable interest with the advent of foundation models. However, most existing methods primarily focus on leveraging knowledge from these models, overlooking the inherent biases introduced by the imbalanced training data they rely on. In this paper, we examine how such imbalances from pre-training affect long-tailed downstream tasks. Specifically, we find the imbalance biases inherited in foundation models on downstream task as parameter imbalance and data imbalance. During fine-tuning, we observe that parameter imbalance plays a more critical role, while data imbalance can be mitigated using existing re-balancing strategies. Moreover, we find that parameter imbalance cannot be effectively addressed by current re-balancing techniques, such as adjusting the logits, during training, unlike data imbalance. To tackle both imbalances simultaneously, we build our method on causal learning and view the incomplete semantic factor as the confounder, which brings spurious correlations between input samples and labels. To resolve the negative effects of this, we propose a novel backdoor adjustment method that learns the true causal effect between input samples and labels, rather than merely fitting the correlations in the data. Notably, we achieve an average performance increase of about $1.67\%$ on each dataset.
arxiv情報
著者 | Jiahao Chen,Bin Qin,Jiangmeng Li,Hao Chen,Bing Su |
発行日 | 2025-01-27 11:00:19+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google