Finnish SQuAD: A Simple Approach to Machine Translation of Span Annotations


DeepL MT サービスとそのフォーマット済みドキュメントの翻訳機能を使用して、スパンレベルのアノテーションを備えたデータセットを機械翻訳する簡単な方法を適用します。
この方法を使用して、フィンランド版の SQuAD2.0 質問応答データセットを作成し、この新しいデータセットで QA レトリーバー モデルをトレーニングします。
私たちは、直接評価、他の同様のデータセットとの間接比較、逆変換実験、および下流のトレーニング済み QA モデルのパフォーマンスを通じて、データセットの品質、より一般的には MT メソッドを評価します。
SQuAD データセットでの優れたパフォーマンスを考えると、この方法は、他の同様のスパンアノテーション付きデータセットを他のタスクや言語に翻訳するためにも使用できる可能性があります。
すべてのコードとデータはオープン ライセンスの下で利用できます。データは HuggingFace TurkuNLP/squad_v2_fi、コードは GitHub TurkuNLP/squad2-fi、モデルは HuggingFace TurkuNLP/bert-base-finnish-cased-squad2 にあります。


We apply a simple method to machine translate datasets with span-level annotation using the DeepL MT service and its ability to translate formatted documents. Using this method, we produce a Finnish version of the SQuAD2.0 question answering dataset and train QA retriever models on this new dataset. We evaluate the quality of the dataset and more generally the MT method through direct evaluation, indirect comparison to other similar datasets, a backtranslation experiment, as well as through the performance of downstream trained QA models. In all these evaluations, we find that the method of transfer is not only simple to use but produces consistently better translated data. Given its good performance on the SQuAD dataset, it is likely the method can be used to translate other similar span-annotated datasets for other tasks and languages as well. All code and data is available under an open license: data at HuggingFace TurkuNLP/squad_v2_fi, code on GitHub TurkuNLP/squad2-fi, and model at HuggingFace TurkuNLP/bert-base-finnish-cased-squad2.


著者 Emil Nuutinen,Iiro Rastas,Filip Ginter
発行日 2025-01-10 13:44:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, Google

カテゴリー: cs.CL パーマリンク