要約
大規模なビジョン言語モデルの迅速な学習の最近の開発により、ターゲット固有のタスクのパフォーマンスが大幅に向上しました。
ただし、これらの迅速な最適化方法は、ターゲット非特異的または一般化可能なタスクに効果的に取り組むのに苦労しています。
これは、過剰適合トレーニングにより、モデルが一般的な知識がターゲット非特定のタスクを強く促進することを忘れさせるという事実に起因する可能性があります。
この問題を軽減するために、ターゲット非特定のタスクでこれらのモデルを強化するように設計された新しい機能マトリックス(FM)正規化アプローチを提案します。
私たちの方法は、一般的な知識を抽出して活用し、機能マトリックス(FM)を形作ります。
具体的には、FMは、深く細かい視点からの多様な入力のセマンティクスをキャプチャし、過剰適合のリスクを軽減する本質的な一般的な知識を維持します。
代表的な評価は、次のことを示しています。1)FMは既存のフレームワークと汎用的で柔軟なモジュールとして互換性があり、2)FMは、ターゲット非特定のタスクを強化し、最先端のパフォーマンスを達成する上でその有効性を大幅に示しています。
要約(オリジナル)
Recent developments in prompt learning of large vision-language models have significantly improved performance in target-specific tasks. However, these prompt optimizing methods often struggle to tackle the target-unspecific or generalizable tasks effectively. It may be attributed to the fact that overfitting training causes the model to forget its general knowledge having strong promotion on target-unspecific tasks. To alleviate this issue, we propose a novel Features Matrix (FM) regularization approach designed to enhance these models on target-unspecific tasks. Our method extracts and leverages general knowledge, shaping a Features Matrix (FM). Specifically, the FM captures the semantics of diverse inputs from a deep and fine perspective, preserving essential general knowledge, which mitigates the risk of overfitting. Representative evaluations demonstrate that: 1) the FM is compatible with existing frameworks as a generic and flexible module, and 2) the FM significantly showcases its effectiveness in enhancing target-unspecific tasks, achieving state-of-the-art performance.
arxiv情報
著者 | Fangming Cui,Yonggang Zhang,Xuan Wang,Xinmei Tian,Jun Yu |
発行日 | 2025-05-06 10:41:53+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google