MultiLegalSBD: A Multilingual Legal Sentence Boundary Detection Dataset

要約

【タイトル】MultiLegalSBD:多言語法的文境界検出データセット
【要約】
– Sentence Boundary Detection(SBD)は、自然言語処理(NLP)の基礎的な構成要素の1つであり、不正確に分割された文は下流のタスクの出力品質に大きな影響を与える。
– 複雑で異なる文構造が使用される法律分野において、SBDはアルゴリズムにとって課題である。
– 本研究では、6つの言語で130,000以上の注釈付き文からなる多様な多言語法的データセットを編纂し、既存のSBDモデルのパフォーマンスが多言語法的データに対して不十分であることを示した。
– CRF、BiLSTM-CRF、トランスフォーマーに基づく単一言語および多言語モデルを訓練およびテストし、最新技術を示した。また、ポルトガル語のテストセットでゼロショット設定で多言語モデルがすべてのベースラインを上回ることを示した。
– コミュニティによるさらなる研究開発を促進するために、データセット、モデル、コードを公開している。

要約(オリジナル)

Sentence Boundary Detection (SBD) is one of the foundational building blocks of Natural Language Processing (NLP), with incorrectly split sentences heavily influencing the output quality of downstream tasks. It is a challenging task for algorithms, especially in the legal domain, considering the complex and different sentence structures used. In this work, we curated a diverse multilingual legal dataset consisting of over 130’000 annotated sentences in 6 languages. Our experimental results indicate that the performance of existing SBD models is subpar on multilingual legal data. We trained and tested monolingual and multilingual models based on CRF, BiLSTM-CRF, and transformers, demonstrating state-of-the-art performance. We also show that our multilingual models outperform all baselines in the zero-shot setting on a Portuguese test set. To encourage further research and development by the community, we have made our dataset, models, and code publicly available.

arxiv情報

著者 Tobias Brugger,Matthias Stürmer,Joel Niklaus
発行日 2023-05-02 05:52:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: 68T50, cs.AI, cs.CL, cs.LG, I.2 パーマリンク