PLUE: Language Understanding Evaluation Benchmark for Privacy Policies in English

要約

プライバシーポリシーは、個人の権利と個人情報の取り扱い方法に関する情報を提供するものです。自然言語理解(NLU)技術は、長くて複雑な文書に記載されたプライバシーポリシーを、個人や実務者がより良く理解することをサポートします。しかし、NLU技術を使用する既存の取り組みは、特定のプライバシー保護に焦点を当てた単一のタスクに特化した方法で言語を処理することによって制限されています。そこで、様々なタスクにまたがるプライバシーポリシーの言語理解を評価するためのマルチタスクベンチマークである、プライバシーポリシー言語理解評価(PLUE)ベンチマークを紹介します。また、プライバシーポリシーのドメインに特化した言語モデルの事前学習を可能にするため、プライバシーポリシーの大規模なコーパスを収集する。いくつかの一般的な事前学習済み言語モデルを評価し、収集したコーパスを用いて事前学習を継続する。ドメインに特化した継続的な事前学習により、すべてのタスクで性能が向上することを実証する。

要約(オリジナル)

Privacy policies provide individuals with information about their rights and how their personal information is handled. Natural language understanding (NLU) technologies can support individuals and practitioners to understand better privacy practices described in lengthy and complex documents. However, existing efforts that use NLU technologies are limited by processing the language in a way exclusive to a single task focusing on certain privacy practices. To this end, we introduce the Privacy Policy Language Understanding Evaluation (PLUE) benchmark, a multi-task benchmark for evaluating the privacy policy language understanding across various tasks. We also collect a large corpus of privacy policies to enable privacy policy domain-specific language model pre-training. We evaluate several generic pre-trained language models and continue pre-training them on the collected corpus. We demonstrate that domain-specific continual pre-training offers performance improvements across all tasks.

arxiv情報

著者 Jianfeng Chi,Wasi Uddin Ahmad,Yuan Tian,Kai-Wei Chang
発行日 2023-05-12 07:38:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL パーマリンク