RISC: Generating Realistic Synthetic Bilingual Insurance Contract


タイトル:RISC: 現実的な合成バイリンガル保険契約書の生成

– RISCは、オープンソースのPythonパッケージデータジェネレータである。
– RISCは、法令で定められたフランス語および英語の自動車保険契約書に基づいた、外見が酷似した自動車保険契約書を生成する。
– 保険契約書は、90〜100ページの文章で、専門家でない人々が理解するため、複雑な法律用語や保険用語を使用している。
– したがって、保険契約書は従来のNLPコーパスに比べて、はるかに複雑なドキュメントのクラスである。
– そのため、義務付けられたケベック州の自動車保険契約書に基づいた、リアルなバイリンガル自動車保険契約書データセットであるRISCBACを紹介する。
– データセットには、10,000のフランス語と英語の未注釈の保険契約書が含まれている。
– RISCBACにより、教師なし自動要約、質問応答、テキスト簡素化、機械翻訳など、NLP研究が可能になる。
– また、NERなどの監視タスクのデータセットとして、さらに自動的に注釈付けすることもできる。


This paper presents RISC, an open-source Python package data generator (https://github.com/GRAAL-Research/risc). RISC generates look-alike automobile insurance contracts based on the Quebec regulatory insurance form in French and English. Insurance contracts are 90 to 100 pages long and use complex legal and insurance-specific vocabulary for a layperson. Hence, they are a much more complex class of documents than those in traditional NLP corpora. Therefore, we introduce RISCBAC, a Realistic Insurance Synthetic Bilingual Automobile Contract dataset based on the mandatory Quebec car insurance contract. The dataset comprises 10,000 French and English unannotated insurance contracts. RISCBAC enables NLP research for unsupervised automatic summarisation, question answering, text simplification, machine translation and more. Moreover, it can be further automatically annotated as a dataset for supervised tasks such as NER


著者 David Beauchemin,Richard Khoury
発行日 2023-04-09 10:42:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CL, cs.LG パーマリンク