Cross-lingual Data Augmentation for Document-grounded Dialog Systems in Low Resource Languages

要約

この論文は、Document-Grounded Dialogue Systems(DGDS)におけるデータ不足の問題に対処するためのフレームワークを提案します。
私たちのモデルは、高リソース言語を活用して、低リソース言語での対話生成機能を強化します。
具体的には、敵対的トレーニング検索 (Retriever および Re-ranker) と Fid (fusion-in-decoder) ジェネレーターを含む新しいパイプライン CLEM (Cross-Lingual Enhanced Model) を紹介します。
高リソース言語をさらに活用するために、翻訳されたトレーニングでさまざまな言語間で調整を行うための革新的なアーキテクチャも提案します。
広範な実験結果によりモデルの有効性が実証され、DialDoc 2023 コンペティションで 4 位を獲得しました。
したがって、CLEM は DGDS のリソース不足に対する解決策として機能し、多言語調整タスクに役立つガイダンスを提供します。

要約(オリジナル)

This paper proposes a framework to address the issue of data scarcity in Document-Grounded Dialogue Systems(DGDS). Our model leverages high-resource languages to enhance the capability of dialogue generation in low-resource languages. Specifically, We present a novel pipeline CLEM (Cross-Lingual Enhanced Model) including adversarial training retrieval (Retriever and Re-ranker), and Fid (fusion-in-decoder) generator. To further leverage high-resource language, we also propose an innovative architecture to conduct alignment across different languages with translated training. Extensive experiment results demonstrate the effectiveness of our model and we achieved 4th place in the DialDoc 2023 Competition. Therefore, CLEM can serve as a solution to resource scarcity in DGDS and provide useful guidance for multi-lingual alignment tasks.

arxiv情報

著者 Qi Gou,Zehua Xia,Wenzhe Du
発行日 2023-09-20 07:39:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク