OMoS-QA: A Dataset for Cross-Lingual Extractive Question Answering in a German Migration Context

要約

新しい国に移住するときは、経済的支援、住居、学校教育、語学コースなどの問題に関する情報を得る必要性に圧倒されがちです。
移転が急がれる場合、あるいは強制される場合には、そのような質問に対する質の高い回答の必要性がさらに高まります。
公式の移民カウンセラーは通常予約でいっぱいであり、オンラインシステムは初心者を要求された情報や適切なカウンセリングサービスに案内する可能性があります。
この目的を達成するために、OMoS-QA は、このシナリオに特化して調整された、関連する信頼できる文書と手動で注釈が付けられた回答と組み合わせられた、ドイツ語と英語の質問のデータセットです。
質問はオープンソースの大規模言語モデル (LLM) を使用して自動的に生成され、回答文はクラウド ワーカーによって高い同意を得て選択されます。
私たちのデータを使用して、ドイツ語と英語での抽出的質問応答 (QA) のタスクに関して、事前トレーニングされた 5 つの LLM の比較を実行します。
すべてのモデルと両方の言語にわたって、回答文の選択において精度が高く、再現率が低から中程度であることがわかりました。これは、ユーザーの誤解を避けるために好ましいトレードオフです。
このパフォーマンスは、質問の言語が文書の言語と一致しない場合でも維持されます。
文脈に応じて答えのない質問を特定することに関しては、2 つの言語間には大きな違いがあります。

要約(オリジナル)

When immigrating to a new country, it is easy to feel overwhelmed by the need to obtain information on financial support, housing, schooling, language courses, and other issues. If relocation is rushed or even forced, the necessity for high-quality answers to such questions is all the more urgent. Official immigration counselors are usually overbooked, and online systems could guide newcomers to the requested information or a suitable counseling service. To this end, we present OMoS-QA, a dataset of German and English questions paired with relevant trustworthy documents and manually annotated answers, specifically tailored to this scenario. Questions are automatically generated with an open-source large language model (LLM) and answer sentences are selected by crowd workers with high agreement. With our data, we conduct a comparison of 5 pretrained LLMs on the task of extractive question answering (QA) in German and English. Across all models and both languages, we find high precision and low-to-mid recall in selecting answer sentences, which is a favorable trade-off to avoid misleading users. This performance even holds up when the question language does not match the document language. When it comes to identifying unanswerable questions given a context, there are larger differences between the two languages.

arxiv情報

著者 Steffen Kleinle,Jakob Prange,Annemarie Friedrich
発行日 2024-07-22 15:40:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク