Cross-lingual Transfer or Machine Translation? On Data Augmentation for Monolingual Semantic Textual Similarity

要約

より良い文埋め込みを学習すると、意味論的テキスト類似性 (STS) や自然言語推論 (NLI) などの自然言語理解タスクのパフォーマンスが向上します。
これまでの研究では、マスクされた言語モデルを微調整して文の埋め込みを生成するために大規模なラベル付き NLI データセットを活用しているため、英語以外の言語のタスクのパフォーマンスは置き去りにされることがよくあります。
この研究では、単一言語 STS の潜在的なソリューションとして 2 つのデータ拡張手法を直接比較しました。(a) 英語リソースのみをトレーニング データとして利用して、ゼロショット推論として非英語文の埋め込みを生成する異言語転送、および (b)
英語データを事前に擬似的な非英語トレーニングデータに変換する機械翻訳。
日本語と韓国語の単一言語 STS の実験では、2 つのデータ技術が同等のパフォーマンスを発揮することがわかりました。
むしろ、これらの言語では、トレーニング データとして NLI に焦点を当てた先行研究とは対照的に、NLI ドメインよりも Wikipedia ドメインの方が優れていることがわかります。
私たちの調査結果を組み合わせると、Wikipedia データの言語を越えた転送によりパフォーマンスが向上し、ネイティブ Wikipedia データが単言語 STS のパフォーマンスをさらに向上できることが実証されました。

要約(オリジナル)

Learning better sentence embeddings leads to improved performance for natural language understanding tasks including semantic textual similarity (STS) and natural language inference (NLI). As prior studies leverage large-scale labeled NLI datasets for fine-tuning masked language models to yield sentence embeddings, task performance for languages other than English is often left behind. In this study, we directly compared two data augmentation techniques as potential solutions for monolingual STS: (a) cross-lingual transfer that exploits English resources alone as training data to yield non-English sentence embeddings as zero-shot inference, and (b) machine translation that coverts English data into pseudo non-English training data in advance. In our experiments on monolingual STS in Japanese and Korean, we find that the two data techniques yield performance on par. Rather, we find a superiority of the Wikipedia domain over the NLI domain for these languages, in contrast to prior studies that focused on NLI as training data. Combining our findings, we demonstrate that the cross-lingual transfer of Wikipedia data exhibits improved performance, and that native Wikipedia data can further improve performance for monolingual STS.

arxiv情報

著者 Sho Hoshino,Akihiko Kato,Soichiro Murakami,Peinan Zhang
発行日 2024-03-08 12:28:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク