TempCharBERT: Keystroke Dynamics for Continuous Access Control Based on Pre-trained Language Models

要約

デジタル環境の普及に伴い、信頼性の高い認証と継続的なアクセス制御が重要になっています。
サイバー攻撃を最小限に抑え、詐欺、特に個人情報の盗難に関連した詐欺を防ぐことができます。
特に興味深いのは、キーストローク ダイナミクス (KD) です。KD とは、個人の固有のタイピング スタイルに基づいて個人のアイデンティティを認識するタスクを指します。
この研究では、そのようなパターンを認識するための事前トレーニング済み言語モデル (PLM) の使用を提案します。
PLM は複数の NLP ベンチマークで高いパフォーマンスを示していますが、特定のタスクでこれらのモデルを使用するにはカスタマイズが必要です。
たとえば、BERT と RoBERTa はサブワードのトークン化に依存しており、ユーザーを認識するために時間的文字情報を必要とする KD に直接適用することはできません。
最近の文字認識 PLM はサブワードと文字レベルの情報の両方を処理できるため、代替ソリューションとなる可能性があります。
それにもかかわらず、これらはユーザーの一時的なタイピング情報 (ホールド タイムや飛行時間など) を考慮して最適化されていないため、KD 用に直接微調整するのにはまだ適していません。
この制限を克服するために、CharBERT の埋め込み層に時間文字情報を組み込むアーキテクチャである TempCharBERT を提案します。
これにより、ユーザーの識別と認証を目的としたキーストロークのダイナミクスのモデル化が可能になります。
このカスタマイズにより、結果が大幅に改善されたことがわかりました。
また、データ プライバシーを促進するために、フェデレーテッド ラーニング設定で TempCharBERT をトレーニングする実現可能性も示しました。

要約(オリジナル)

With the widespread of digital environments, reliable authentication and continuous access control has become crucial. It can minimize cyber attacks and prevent frauds, specially those associated with identity theft. A particular interest lies on keystroke dynamics (KD), which refers to the task of recognizing individuals’ identity based on their unique typing style. In this work, we propose the use of pre-trained language models (PLMs) to recognize such patterns. Although PLMs have shown high performance on multiple NLP benchmarks, the use of these models on specific tasks requires customization. BERT and RoBERTa, for instance, rely on subword tokenization, and they cannot be directly applied to KD, which requires temporal-character information to recognize users. Recent character-aware PLMs are able to process both subwords and character-level information and can be an alternative solution. Notwithstanding, they are still not suitable to be directly fine-tuned for KD as they are not optimized to account for user’s temporal typing information (e.g., hold time and flight time). To overcome this limitation, we propose TempCharBERT, an architecture that incorporates temporal-character information in the embedding layer of CharBERT. This allows modeling keystroke dynamics for the purpose of user identification and authentication. Our results show a significant improvement with this customization. We also showed the feasibility of training TempCharBERT on a federated learning settings in order to foster data privacy.

arxiv情報

著者 Matheus Simão,Fabiano Prado,Omar Abdul Wahab,Anderson Avila
発行日 2024-11-11 18:44:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CR パーマリンク