SynDARin: Synthesising Datasets for Automated Reasoning in Low-Resource Languages

要約

質問応答 (QA) データセットは、大規模言語モデル (LLM) 機能の開発と評価に役立ちます。
ただし、英語以外の言語では、収集と手動による注釈のコストと難しさのため、このようなデータセットはほとんどありません。
これは、新しいモデルを作成し、低リソース言語で多言語 LLM のパフォーマンスを測定することが困難であることを意味します。
これを軽減するために、低リソース言語の QA データセットを生成および検証する方法である $\textbf{S}$yn$\textbf{DAR}$in を提案します。
私たちは並行コンテンツ マイニングを利用して、英語とターゲット言語の間の $\textit{人間が厳選した}$ 段落を取得します。
$\textit{generate}$ 合成多肢選択 (MC) 質問と回答のペアのコンテキストとして英語データを使用します。これらは自動的に翻訳され、品質がさらに検証されます。
これらを、指定された英語以外の $\textit{human-curated}$ 段落と組み合わせることで、最終的な QA データセットが形成されます。
この方法により、コンテンツの品質を維持し、事実誤認の可能性を減らし、コストのかかる注釈の必要性を回避できます。
このメソッドをテストするために、アルメニア語用の $1.2$K のサンプルを含む QA データセットを作成しました。
人間による評価では、生成された英語データの $98\%$ が質問の種類とトピックの品質と多様性を維持している一方、翻訳検証パイプラインは品質の低いデータ $\sim70\%$ を除外できることが示されています。
私たちはこのデータセットを使用して最先端の LLM のベンチマークを行い、一部のモデルのパフォーマンスがランダムな偶然に近い場合、人間の精度を達成することができないことを示しています。
これは、生成されたデータセットが自明ではなく、低リソース言語での推論機能の評価に使用できることを示しています。

要約(オリジナル)

Question Answering (QA) datasets have been instrumental in developing and evaluating Large Language Model (LLM) capabilities. However, such datasets are scarce for languages other than English due to the cost and difficulties of collection and manual annotation. This means that producing novel models and measuring the performance of multilingual LLMs in low-resource languages is challenging. To mitigate this, we propose $\textbf{S}$yn$\textbf{DAR}$in, a method for generating and validating QA datasets for low-resource languages. We utilize parallel content mining to obtain $\textit{human-curated}$ paragraphs between English and the target language. We use the English data as context to $\textit{generate}$ synthetic multiple-choice (MC) question-answer pairs, which are automatically translated and further validated for quality. Combining these with their designated non-English $\textit{human-curated}$ paragraphs form the final QA dataset. The method allows to maintain the content quality, reduces the likelihood of factual errors, and circumvents the need for costly annotation. To test the method, we created a QA dataset with $1.2$K samples for the Armenian language. The human evaluation shows that $98\%$ of the generated English data maintains quality and diversity in the question types and topics, while the translation validation pipeline can filter out $\sim70\%$ of data with poor quality. We use the dataset to benchmark state-of-the-art LLMs, showing their inability to achieve human accuracy with some model performances closer to random chance. This shows that the generated dataset is non-trivial and can be used to evaluate reasoning capabilities in low-resource language.

arxiv情報

著者 Gayane Ghazaryan,Erik Arakelyan,Pasquale Minervini,Isabelle Augenstein
発行日 2024-06-25 13:48:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク