A New Aligned Simple German Corpus

要約

Simple English に相当するドイツ語である「Leichte Sprache」は、そうでなければさまざまなグループの人々がアクセスできない複雑な書き言葉を容易にすることを目的とした規制言語です。
我々は、単純なドイツ語、つまりドイツ語用の新しい文に整合した単一言語コーパスを提供します。
これには、自動文配置方法を使用して配置された複数の文書が配置されたソースが含まれています。
調整されたドキュメントの手動でラベル付けされたサブセットに基づいて調整を評価します。
F1 スコアで測定される文のアラインメントの品質は、以前の研究を上回っています。
データセットは CC BY-SA に基づいて公開され、付随するコードは MIT ライセンスに基づいて公開されます。

要約(オリジナル)

‘Leichte Sprache’, the German counterpart to Simple English, is a regulated language aiming to facilitate complex written language that would otherwise stay inaccessible to different groups of people. We present a new sentence-aligned monolingual corpus for Simple German — German. It contains multiple document-aligned sources which we have aligned using automatic sentence-alignment methods. We evaluate our alignments based on a manually labelled subset of aligned documents. The quality of our sentence alignments, as measured by F1-score, surpasses previous work. We publish the dataset under CC BY-SA and the accompanying code under MIT license.

arxiv情報

著者 Vanessa Toborek,Moritz Busch,Malte Boßert,Christian Bauckhage,Pascal Welke
発行日 2023-05-16 17:24:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク