要約
多くの実用的な自然言語アプリケーションでは、ユーザー データの機密性が高く、ユーザー ID を使用せずにモバイル デバイスからクラウドにテキスト データを匿名でアップロードする必要があります。
ただし、ユーザー識別子が存在しないため、多様なユーザーのニーズに応えるために不可欠な、クラウドベースの言語モデルがパーソナライズされたサービスを提供する能力が制限されます。
明示的なユーザー識別子をモデル入力として埋め込まれた静的なユーザーに置き換える単純な方法でも、依然としてデータの匿名化が危険にさらされます。
この研究では、各モバイル デバイスがユーザー固有の配布を維持してユーザー エンベディングを動的に生成し、それによってエンベディングと特定のユーザーの間の 1 対 1 のマッピングを解除することを提案します。
さらに理論的には、アップロードされた埋め込みを介してクラウドがユーザーを追跡するのを防ぐには、さまざまなユーザーのローカル分布を線形依存空間から導き出して識別可能性を回避するか、正確な帰属を防ぐために互いに近くに配置する必要があることを示します。
さまざまな言語モデルを使用して公共データセットと産業データセットの両方を評価したところ、リアルタイム推論要件を維持しながら、匿名ユーザーの埋め込みを組み込むことで精度が大幅に向上したことが明らかになりました。
要約(オリジナル)
In many practical natural language applications, user data are highly sensitive, requiring anonymous uploads of text data from mobile devices to the cloud without user identifiers. However, the absence of user identifiers restricts the ability of cloud-based language models to provide personalized services, which are essential for catering to diverse user needs. The trivial method of replacing an explicit user identifier with a static user embedding as model input still compromises data anonymization. In this work, we propose to let each mobile device maintain a user-specific distribution to dynamically generate user embeddings, thereby breaking the one-to-one mapping between an embedding and a specific user. We further theoretically demonstrate that to prevent the cloud from tracking users via uploaded embeddings, the local distributions of different users should either be derived from a linearly dependent space to avoid identifiability or be close to each other to prevent accurate attribution. Evaluation on both public and industrial datasets using different language models reveals a remarkable improvement in accuracy from incorporating anonymous user embeddings, while preserving real-time inference requirement.
arxiv情報
著者 | Yucheng Ding,Yangwenjian Tan,Xiangyu Liu,Chaoyue Niu,Fandong Meng,Jie Zhou,Ning Liu,Fan Wu,Guihai Chen |
発行日 | 2025-01-10 15:46:19+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google