The Russian Legislative Corpus

要約

1991 年から 2023 年までをカバーする包括的なロシアの一次および二次立法コーパスを紹介します。このコーパスは、非機密の連邦規制および法令の 281,413 テキスト (1 億 76,523,268 トークン) のすべてとそのメタデータを収集しています。
コーパスには、前処理を最小限に抑えたオリジナルのテキストと、形態構文マークアップを使用した言語分析用に準備されたバージョンの 2 つのバージョンがあります。

要約(オリジナル)

We present the comprehensive Russian primary and secondary legislation corpus covering 1991 to 2023. The corpus collects all 281,413 texts (176,523,268 tokens) of non-secret federal regulations and acts, along with their metadata. The corpus has two versions the original text with minimal preprocessing and a version prepared for linguistic analysis with morphosyntactic markup.

arxiv情報

著者 Denis Saveliev,Ruslan Kuchakov
発行日 2024-06-07 11:38:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク