ClusterFormer: Clustering As A Universal Visual Learner

要約

この文書では、TransFORMER を使用した CLUSTERing パラダイムに基づくユニバーサル ビジョン モデルである CLUSTERFORMER について説明します。
これは 2 つの新しい設計で構成されます。 1. 反復クロスアテンション クラスタリング。Transformer のクロスアテンション メカニズムを再定式化し、クラスタ中心の再帰的更新を可能にして強力な表現学習を促進します。
2. 特徴ディスパッチング。更新されたクラスター センターを使用して、類似度ベースのメトリクスを通じて画像特徴を再配布し、透過的なパイプラインを実現します。
このエレガントなデザインは、説明可能で転送可能なワークフローを合理化し、さまざまなレベルのクラスタリング粒度 (つまり、画像レベル、ボックスレベル、ピクセルレベル) で異種の視覚タスク (つまり、画像分類、オブジェクト検出、画像セグメンテーション) に取り組むことができます。
実験結果は、CLUSTERFORMER がさまざまなよく知られた特殊なアーキテクチャよりも優れたパフォーマンスを示し、83.41% のトップ 1 アクセスを達成していることを示しています。
画像分類では ImageNet-1K で、オブジェクト検出とインスタンス セグメンテーションでは MS COCO で 54.2% と 47.0% mAP、セマンティック セグメンテーションでは ADE20K で 52.4% mIoU、パノプティック セグメンテーションでは COCO Panoptic で 55.8% PQ です。
その有効性を考えると、私たちの研究がコンピューター ビジョンにおけるユニバーサル モデルのパラダイム シフトを促進できることを願っています。

要約(オリジナル)

This paper presents CLUSTERFORMER, a universal vision model that is based on the CLUSTERing paradigm with TransFORMER. It comprises two novel designs: 1. recurrent cross-attention clustering, which reformulates the cross-attention mechanism in Transformer and enables recursive updates of cluster centers to facilitate strong representation learning; and 2. feature dispatching, which uses the updated cluster centers to redistribute image features through similarity-based metrics, resulting in a transparent pipeline. This elegant design streamlines an explainable and transferable workflow, capable of tackling heterogeneous vision tasks (i.e., image classification, object detection, and image segmentation) with varying levels of clustering granularity (i.e., image-, box-, and pixel-level). Empirical results demonstrate that CLUSTERFORMER outperforms various well-known specialized architectures, achieving 83.41% top-1 acc. over ImageNet-1K for image classification, 54.2% and 47.0% mAP over MS COCO for object detection and instance segmentation, 52.4% mIoU over ADE20K for semantic segmentation, and 55.8% PQ over COCO Panoptic for panoptic segmentation. For its efficacy, we hope our work can catalyze a paradigm shift in universal models in computer vision.

arxiv情報

著者 James C. Liang,Yiming Cui,Qifan Wang,Tong Geng,Wenguan Wang,Dongfang Liu
発行日 2023-10-01 14:02:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク