One-Time Model Adaptation to Heterogeneous Clients: An Intra-Client and Inter-Image Attention Design

要約

画像認識アプリケーションの主流のワークフローは、最初にクラウド上で 1 つのグローバル モデルをさまざまなクラスにトレーニングし、次に多数のクライアントにサービスを提供して、それぞれが認識されるクラスの小さなサブセットからの異種の画像を提供することです。
画像クラスの範囲に関するクラウドとクライアントの不一致から、認識モデルには、無視できるオーバーヘッドを発生させながら、個々のクライアントのローカル動的クラス サブセットに焦点を当てることによって直感的に強力な適応性を持たせることが望まれます。
この作業では、新しいクライアント内およびイメージ間アテンション (ICIIA) モジュールを既存のバックボーン認識モデルにプラグインすることを提案します。これにより、クライアントに適応するために 1 回限りのクラウドベースのトレーニングのみが必要になります。
特に、特定のクライアントからのターゲット画像が与えられると、ICIIA はマルチヘッド自己注意を導入して、クライアントの過去のラベル付けされていない画像から関連する画像を検索し、それによって焦点と認識結果を調整します。
さらに、ICIIA のオーバーヘッドが線形射影によって支配されていることを考慮して、代わりに機能シャッフルを使用して分割された線形射影を提案し、パーティションの数を増やして、精度をあまり犠牲にすることなく効率を劇的に改善できるようにします。
最後に、5 つの代表的なデータセットで 9 つのバックボーン モデルを使用して、3 つの異なる認識タスクを使用して ICIIA を評価します。
広範な評価結果は、ICIIA の有効性と効率性を示しています。
具体的には、MobileNetV3-L および Swin-B のバックボーン モデルを使用した ImageNet-1K の場合、ICIIA はテスト精度を 83.37% (+8.11%) および 88.86% (+5.28%) に改善できますが、追加は 1.62% および 0.02% のみです。
それぞれFLOPの。

要約(オリジナル)

The mainstream workflow of image recognition applications is first training one global model on the cloud for a wide range of classes and then serving numerous clients, each with heterogeneous images from a small subset of classes to be recognized. From the cloud-client discrepancies on the range of image classes, the recognition model is desired to have strong adaptiveness, intuitively by concentrating the focus on each individual client’s local dynamic class subset, while incurring negligible overhead. In this work, we propose to plug a new intra-client and inter-image attention (ICIIA) module into existing backbone recognition models, requiring only one-time cloud-based training to be client-adaptive. In particular, given a target image from a certain client, ICIIA introduces multi-head self-attention to retrieve relevant images from the client’s historical unlabeled images, thereby calibrating the focus and the recognition result. Further considering that ICIIA’s overhead is dominated by linear projection, we propose partitioned linear projection with feature shuffling for replacement and allow increasing the number of partitions to dramatically improve efficiency without scarifying too much accuracy. We finally evaluate ICIIA using 3 different recognition tasks with 9 backbone models over 5 representative datasets. Extensive evaluation results demonstrate the effectiveness and efficiency of ICIIA. Specifically, for ImageNet-1K with the backbone models of MobileNetV3-L and Swin-B, ICIIA can improve the testing accuracy to 83.37% (+8.11%) and 88.86% (+5.28%), while adding only 1.62% and 0.02% of FLOPs, respectively.

arxiv情報

著者 Yikai Yan,Chaoyue Niu,Fan Wu,Qinya Li,Shaojie Tang,Chengfei Lyu,Guihai Chen
発行日 2022-11-11 15:33:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク