Synthetic Dataset Creation and Fine-Tuning of Transformer Models for Question Answering in Serbian

要約

この論文では、適応されたTranslate-Align-Retrieve メソッドを使用して合成質問応答 (QA) データセットを生成することに焦点を当てます。
この方法を使用して、87,000 サンプルを超える最大のセルビア語 QA データセットを作成しました。これを SQuAD-sr と名付けます。
セルビア語の文字の二重性を認識するために、キリル語とラテン語の両方のバージョンのデータセットを生成しました。
データセットの品質を調査し、それを使用していくつかの事前トレーニング済み QA モデルを微調整します。
ラテン語 SQuAD-sr データセットで BERTi モデルを微調整することで最良の結果が得られ、ベンチマーク XQuAD データセットで 73.91% の完全一致と 82.97% の F1 スコアを達成しました。評価のためにセルビア語に翻訳しました。
結果は、私たちのモデルがゼロショットのベースラインを超えているものの、人間のパフォーマンスを超えることはできないことを示しています。
多言語よりも単言語の事前トレーニング済みモデルを使用する利点と、キリル文字ではなくラテン語を使用することで得られるパフォーマンスの向上に注目します。
追加の分析を実行することにより、数値または日付に関する質問は他の種類の質問よりも正しく回答される可能性が高いことがわかります。
最後に、手動で作成され、注釈が付けられたデータセットがない場合、SQuAD-sr はセルビアの QA モデルを微調整するのに十分な品質であると結論付けます。

要約(オリジナル)

In this paper, we focus on generating a synthetic question answering (QA) dataset using an adapted Translate-Align-Retrieve method. Using this method, we created the largest Serbian QA dataset of more than 87K samples, which we name SQuAD-sr. To acknowledge the script duality in Serbian, we generated both Cyrillic and Latin versions of the dataset. We investigate the dataset quality and use it to fine-tune several pre-trained QA models. Best results were obtained by fine-tuning the BERTi\’c model on our Latin SQuAD-sr dataset, achieving 73.91% Exact Match and 82.97% F1 score on the benchmark XQuAD dataset, which we translated into Serbian for the purpose of evaluation. The results show that our model exceeds zero-shot baselines, but fails to go beyond human performance. We note the advantage of using a monolingual pre-trained model over multilingual, as well as the performance increase gained by using Latin over Cyrillic. By performing additional analysis, we show that questions about numeric values or dates are more likely to be answered correctly than other types of questions. Finally, we conclude that SQuAD-sr is of sufficient quality for fine-tuning a Serbian QA model, in the absence of a manually crafted and annotated dataset.

arxiv情報

著者 Aleksa Cvetanović,Predrag Tadić
発行日 2024-04-12 17:27:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク