要約
テキスト分類モデル開発のボトルネックは、トレーニング データに注釈を付ける必要があることですが、多言語分類器ではこの必要性がさらに高まります。
幸いなことに、最新の機械翻訳モデルは簡単にアクセスでき、信頼できる翻訳品質を備えているため、ラベル付きトレーニング データをある言語から別の言語に翻訳することが可能です。
ここでは、機械翻訳を使用して、複数の言語にわたる分類タスクの多言語モデルを微調整する効果を調査します。
また、翻訳データに対するモデルの調整による潜在的な悪影響を考慮して、もともと画像キャプションの分野で提案された新しい技術を使用する利点も調査します。
翻訳されたデータが多言語分類器を調整するのに十分な品質であること、およびこの新しい損失手法が、それを使用せずに調整されたモデルよりもある程度の改善を提供できることを示します。
要約(オリジナル)
An all-too-present bottleneck for text classification model development is the need to annotate training data and this need is multiplied for multilingual classifiers. Fortunately, contemporary machine translation models are both easily accessible and have dependable translation quality, making it possible to translate labeled training data from one language into another. Here, we explore the effects of using machine translation to fine-tune a multilingual model for a classification task across multiple languages. We also investigate the benefits of using a novel technique, originally proposed in the field of image captioning, to account for potential negative effects of tuning models on translated data. We show that translated data are of sufficient quality to tune multilingual classifiers and that this novel loss technique is able to offer some improvement over models tuned without it.
arxiv情報
著者 | Adam King |
発行日 | 2024-05-09 00:31:59+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google