要約
20分間のXD(20分間の文書レベル)、フランスのドキュメントレベルのニュース記事のドキュメントレベルの同等のコーパスを紹介します。
データセットは、セマンティックの類似性に基づいて自動的に整列されている2015年から2024年にかけて、約15,000の記事ペアで構成されています。
データ収集プロセスとアライメント方法論について詳しく説明します。
さらに、コーパスの定性的および定量的分析を提供します。
結果のデータセットは、ほぼ翻訳から緩やかに関連する記事に至るまで、幅広い言語間類似性を示し、さまざまなNLPアプリケーションや幅広い言語的動機付けの研究に役立ちます。
ドキュメントおよび文に合ったバージョンと、説明された実験用のコードでデータセットを公開します。
要約(オリジナル)
We present 20min-XD (20 Minuten cross-lingual document-level), a French-German, document-level comparable corpus of news articles, sourced from the Swiss online news outlet 20 Minuten/20 minutes. Our dataset comprises around 15,000 article pairs spanning 2015 to 2024, automatically aligned based on semantic similarity. We detail the data collection process and alignment methodology. Furthermore, we provide a qualitative and quantitative analysis of the corpus. The resulting dataset exhibits a broad spectrum of cross-lingual similarity, ranging from near-translations to loosely related articles, making it valuable for various NLP applications and broad linguistically motivated studies. We publicly release the dataset in document- and sentence-aligned versions and code for the described experiments.
arxiv情報
著者 | Michelle Wastl,Jannis Vamvas,Selena Calleri,Rico Sennrich |
発行日 | 2025-04-30 14:16:08+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google