Transparent NLP: Using RAG and LLM Alignment for Privacy Q&A

要約

一般的なデータ保護規則(GDPR)の透明性の原則には、データ処理情報が明確で正確で、アクセス可能であることが必要です。
言語モデルはこの文脈で有望を示していますが、彼らの確率的性質は真実性と包括性を複雑にします。
このペーパーでは、GDPRの義務を果たすためにアラインメント技術で強化された最先端の検索拡張生成(RAG)システムを調べます。
プライバシーQ&Aデータセットを使用して、巻き戻す自動回帰推論(Rain)や提案された多次元拡張、マルチレインなどのアライメントモジュールを組み込んだRAGシステムを評価します。
応答は、正確さと包括性のために最適化されており、決定論的および大規模な言語モデルベースの評価を含む21のメトリックを通じて評価されます。
私たちの結果は、アラインメントモジュールを備えたRAGシステムがほとんどのメトリックでベースラインRAGシステムを上回ることを示していますが、人間の答えに完全に一致するものはありません。
結果の主成分分析により、メトリック間の複雑な相互作用が明らかになり、メトリックを改良する必要性が強調されています。
この研究は、高度な自然言語処理システムを法的コンプライアンスフレームワークに統合するための基盤を提供します。

要約(オリジナル)

The transparency principle of the General Data Protection Regulation (GDPR) requires data processing information to be clear, precise, and accessible. While language models show promise in this context, their probabilistic nature complicates truthfulness and comprehensibility. This paper examines state-of-the-art Retrieval Augmented Generation (RAG) systems enhanced with alignment techniques to fulfill GDPR obligations. We evaluate RAG systems incorporating an alignment module like Rewindable Auto-regressive Inference (RAIN) and our proposed multidimensional extension, MultiRAIN, using a Privacy Q&A dataset. Responses are optimized for preciseness and comprehensibility and are assessed through 21 metrics, including deterministic and large language model-based evaluations. Our results show that RAG systems with an alignment module outperform baseline RAG systems on most metrics, though none fully match human answers. Principal component analysis of the results reveals complex interactions between metrics, highlighting the need to refine metrics. This study provides a foundation for integrating advanced natural language processing systems into legal compliance frameworks.

arxiv情報

著者 Anna Leschanowsky,Zahra Kolagar,Erion Çano,Ivan Habernal,Dara Hallinan,Emanuël A. P. Habets,Birgit Popp
発行日 2025-02-10 16:42:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク