要約
1991 年から 2023 年までをカバーする包括的なロシアの一次および二次立法コーパスを紹介します。このコーパスは、非機密の連邦規制および法令の 281,413 テキスト (1 億 76,523,268 トークン) のすべてとそのメタデータを収集しています。
コーパスには、前処理を最小限に抑えたオリジナルのテキストと、形態構文マークアップを使用した言語分析用に準備されたバージョンの 2 つのバージョンがあります。
要約(オリジナル)
We present the comprehensive Russian primary and secondary legislation corpus covering 1991 to 2023. The corpus collects all 281,413 texts (176,523,268 tokens) of non-secret federal regulations and acts, along with their metadata. The corpus has two versions the original text with minimal preprocessing and a version prepared for linguistic analysis with morphosyntactic markup.
arxiv情報
著者 | Denis Saveliev,Ruslan Kuchakov |
発行日 | 2024-10-28 12:07:49+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google