BOUQuET: dataset, Benchmark and Open initiative for Universal Quality Evaluation in Translation

要約

このペーパーでは、多ートリックおよびマルチレジスター/ドメインデータセットとベンチマークであるブーケ、およびその広範な共同拡張イニシアチブを紹介します。
このデータセットは最初に非英語言語で手作りされており、これらのソース言語はそれぞれ、世界の人口の半分が一般的に使用している23の言語で表されているため、より正確な翻訳を可能にするピボット言語として機能する可能性があります。
データセットは、多言語の特徴の表現を強制するために、汚染を避け、多室中心になるように特別に設計されています。
さらに、データセットはさまざまな長さの段落で編成されているため、文レベルを超えています。
関連する機械翻訳(MT)データセットと比較して、Bouquetにはドメインのより広範な表現があり、非専門家の翻訳タスクを簡素化していることが示されています。
したがって、Bouquetは、オープンイニシアチブに特に適しており、翻訳参加を求めて、それを書かれた言語にマルチウェイパラレルコーパスに拡張するために開始しています。

要約(オリジナル)

This paper presents BOUQuET, a multicentric and multi-register/domain dataset and benchmark, and its broader collaborative extension initiative. This dataset is handcrafted in non-English languages first, each of these source languages being represented among the 23 languages commonly used by half of the world’s population and therefore having the potential to serve as pivot languages that will enable more accurate translations. The dataset is specially designed to avoid contamination and be multicentric, so as to enforce representation of multilingual language features. In addition, the dataset goes beyond the sentence level, as it is organized in paragraphs of various lengths. Compared with related machine translation (MT) datasets, we show that BOUQuET has a broader representation of domains while simplifying the translation task for non-experts. Therefore, BOUQuET is specially suitable for the open initiative and call for translation participation that we are launching to extend it to a multi-way parallel corpus to any written language.

arxiv情報

著者 The Omnilingual MT Team,Pierre Andrews,Mikel Artetxe,Mariano Coria Meglioli,Marta R. Costa-jussà,Joe Chuang,David Dale,Cynthia Gao,Jean Maillard,Alex Mourachko,Christophe Ropers,Safiyyah Saleem,Eduardo Sánchez,Ioannis Tsiamas,Arina Turkatenko,Albert Ventayol-Boada,Shireen Yates
発行日 2025-02-06 18:56:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, I.2.7 パーマリンク