要約
マルチモーダルAIの成功の急増は、視覚と言語のタスクにおけるデータプライバシーに関する懸念を呼び起こした。CLIPは画像とテキストの共同学習を通じてマルチモーダル学習に革命をもたらしたが、意図せず機密情報を開示してしまう可能性があるため、プライバシーを保護するメカニズムを統合する必要がある。我々は、精度を維持しつつ、プライバシーの懸念に効果的に対処する、対照的言語画像事前学習(CLIP)モデルの差分非公開適応を紹介する。提案手法であるDp-CLIPは、画像分類や視覚的質問応答などの多様な視覚と言語のタスクを含むベンチマークデータセットで厳密に評価される。本手法が、標準的な非プライベートCLIPモデルと同等の性能を保持することを実証する。さらに、線形表現設定の下で、提案アルゴリズムを解析する。本アルゴリズムの収束率を導出し、勾配がバッチ毎に切り取られ、損失関数がDP-SGDの解析のために文献で仮定されている滑らかさの条件を満たさない場合に、効用とプライバシーのトレードオフを示す。
要約(オリジナル)
The surge in multimodal AI’s success has sparked concerns over data privacy in vision-and-language tasks. While CLIP has revolutionized multimodal learning through joint training on images and text, its potential to unintentionally disclose sensitive information necessitates the integration of privacy-preserving mechanisms. We introduce a differentially private adaptation of the Contrastive Language-Image Pretraining (CLIP) model that effectively addresses privacy concerns while retaining accuracy. Our proposed method, Dp-CLIP, is rigorously evaluated on benchmark datasets encompassing diverse vision-and-language tasks such as image classification and visual question answering. We demonstrate that our approach retains performance on par with the standard non-private CLIP model. Furthermore, we analyze our proposed algorithm under linear representation settings. We derive the convergence rate of our algorithm and show a trade-off between utility and privacy when gradients are clipped per-batch and the loss function does not satisfy smoothness conditions assumed in the literature for the analysis of DP-SGD.
arxiv情報
著者 | Alyssa Huang,Peihan Liu,Ryumei Nakada,Linjun Zhang,Wanrong Zhang |
発行日 | 2024-03-01 04:24:04+00:00 |
arxivサイト | arxiv_id(pdf) |