Self-supervised Transformation Learning for Equivariant Representations

要約

教師なし表現学習により、さまざまな機械学習タスクが大幅に進歩しました。
コンピューター ビジョンの分野では、最先端のアプローチではランダム クロップやカラー ジッターなどの変換を利用して不変表現を実現し、変換にもかかわらず意味的に同じ入力を埋め込みます。
ただし、これにより、位置特定や花の分類など、正確な機能が必要なタスクのパフォーマンスが低下する可能性があります。
これに対処するために、最近の研究では、変換に依存する情報を捕捉する等変表現学習が組み込まれています。
ただし、現在の方法は変換ラベルに依存しているため、相互依存性や複雑な変換に苦労しています。
私たちは、変換ラベルを画像ペアから導出された変換表現に置き換える自己教師あり変換学習 (STL) を提案します。
提案された方法は、変換表現が画像不変であることを保証し、対応する等変変換を学習することで、バッチの複雑さを増すことなくパフォーマンスを向上させます。
私たちは、さまざまな分類および検出タスクにわたってこのアプローチの有効性を実証し、11 ベンチマーク中 7 において既存の手法を上回り、検出において優れていることを実証しました。
このアプローチは、以前の等変手法では使用できなかった AugMix のような複雑な変換を統合することにより、タスク全体のパフォーマンスを向上させ、その適応性と回復力を強調します。
さらに、さまざまなベースモデルとの互換性により、その柔軟性と幅広い適用性が強調されます。
コードは https://github.com/jaemyung-u/stl で入手できます。

要約(オリジナル)

Unsupervised representation learning has significantly advanced various machine learning tasks. In the computer vision domain, state-of-the-art approaches utilize transformations like random crop and color jitter to achieve invariant representations, embedding semantically the same inputs despite transformations. However, this can degrade performance in tasks requiring precise features, such as localization or flower classification. To address this, recent research incorporates equivariant representation learning, which captures transformation-sensitive information. However, current methods depend on transformation labels and thus struggle with interdependency and complex transformations. We propose Self-supervised Transformation Learning (STL), replacing transformation labels with transformation representations derived from image pairs. The proposed method ensures transformation representation is image-invariant and learns corresponding equivariant transformations, enhancing performance without increased batch complexity. We demonstrate the approach’s effectiveness across diverse classification and detection tasks, outperforming existing methods in 7 out of 11 benchmarks and excelling in detection. By integrating complex transformations like AugMix, unusable by prior equivariant methods, this approach enhances performance across tasks, underscoring its adaptability and resilience. Additionally, its compatibility with various base models highlights its flexibility and broad applicability. The code is available at https://github.com/jaemyung-u/stl.

arxiv情報

著者 Jaemyung Yu,Jaehyun Choi,Dong-Jae Lee,HyeongGwon Hong,Junmo Kim
発行日 2025-01-15 10:54:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク