EUROPA: A Legal Multilingual Keyphrase Generation Dataset

要約

キーフレーズの生成は、主に学術研究論文のコンテキスト内で研究されており、特に科学分野と英語に重点が置かれています。
この研究では、法律分野における多言語キーフレーズ生成用のデータセットである EUROPA を紹介します。
これは、欧州連合 (EU) の司法裁判所からの法的判決に基づいており、EU の 24 の公用語すべてでの事例が含まれています。
私たちはコーパスに対して多言語モデルを実行して結果を分析し、今回紹介したようなドメイン固有の多言語コーパスには改善の余地があることを示しています。

要約(オリジナル)

Keyphrase generation has primarily been explored within the context of academic research articles, with a particular focus on scientific domains and the English language. In this work, we present EUROPA, a dataset for multilingual keyphrase generation in the legal domain. It is derived from legal judgments from the Court of Justice of the European Union (EU), and contains instances in all 24 EU official languages. We run multilingual models on our corpus and analyze the results, showing room for improvement on a domain-specific multilingual corpus such as the one we present.

arxiv情報

著者 Olivier Salaün,Frédéric Piedboeuf,Guillaume Le Berre,David Alfonso Hermelo,Philippe Langlais
発行日 2024-06-14 13:51:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク