Large Language Models: A New Approach for Privacy Policy Analysis at Scale

要約

Web アプリケーションとモバイル アプリケーションの数と動的な性質により、データ保護法の遵守を評価する際に大きな課題が生じます。
これに関連して、これらのシステムのプライバシー ポリシーの自動分析には、記号的および統計的な自然言語処理 (NLP) 技術が採用されています。
ただし、これらの手法では通常、トレーニングと検証のために、労力がかかり、潜在的にエラーが発生しやすい手動でアノテーションを付けたデータセットが必要になります。
この研究では、プライバシー ポリシーからプライバシー慣行を大規模に効果的かつ効率的に抽出するための代替手段として、大規模言語モデル (LLM) のアプリケーションを提案しています。
特に、ChatGPT や Llama 2 などのよく知られた LLM を活用し、少数ショット学習などの高度な戦略を組み込んだ、プロンプト、パラメーター、モデルの最適な設計に関するガイダンスを提供します。
さらに、詳細かつ多様なプライバシー慣行を正確に検出する機能についても説明します。
ドメイン内のいくつかの有名なデータセットをベンチマークとして使用した私たちの評価では、その卓越したパフォーマンスが検証され、93% を超える F1 スコアを達成しました。
さらに、コストが削減され、処理時間が短縮され、技術的な知識の要件が軽減されます。
したがって、大規模なプライバシー ポリシーの自動分析のための従来の NLP 手法に代わる健全な代替手段として、LLM ベースのソリューションを推奨します。

要約(オリジナル)

The number and dynamic nature of web and mobile applications presents significant challenges for assessing their compliance with data protection laws. In this context, symbolic and statistical Natural Language Processing (NLP) techniques have been employed for the automated analysis of these systems’ privacy policies. However, these techniques typically require labor-intensive and potentially error-prone manually annotated datasets for training and validation. This research proposes the application of Large Language Models (LLMs) as an alternative for effectively and efficiently extracting privacy practices from privacy policies at scale. Particularly, we leverage well-known LLMs such as ChatGPT and Llama 2, and offer guidance on the optimal design of prompts, parameters, and models, incorporating advanced strategies such as few-shot learning. We further illustrate its capability to detect detailed and varied privacy practices accurately. Using several renowned datasets in the domain as a benchmark, our evaluation validates its exceptional performance, achieving an F1 score exceeding 93%. Besides, it does so with reduced costs, faster processing times, and fewer technical knowledge requirements. Consequently, we advocate for LLM-based solutions as a sound alternative to traditional NLP techniques for the automated analysis of privacy policies at scale.

arxiv情報

著者 David Rodriguez,Ian Yang,Jose M. Del Alamo,Norman Sadeh
発行日 2024-05-31 15:12:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CY パーマリンク