要約
さまざまな言語にわたって信頼性の高いビジュアル質問応答 (VQA) システムを構築することは、主にトレーニング用の豊富なサンプルが不足しているため、困難な問題です。
この課題に対処するために、最近の研究では、言語を超えた VQA タスクに機械翻訳システムが採用されています。
これには、評価サンプルをソース言語 (通常は英語) に翻訳し、単一言語モデルを使用する (つまり、翻訳テスト) ことが含まれます。
しかし、私たちの分析では、翻訳されたテキストには、翻訳アーティファクトと呼ばれる、人間が書いたものとは異なる独特の特徴が含まれていることが明らかになりました。
これらのアーティファクトがモデルに大きな影響を与える可能性があることがわかり、これはさまざまなモデル、言語、翻訳プロセスにわたる広範な実験によって確認されています。
これを考慮して、翻訳アーティファクトの悪影響を軽減できるシンプルなデータ拡張戦略を紹介します。
要約(オリジナル)
Building a reliable visual question answering~(VQA) system across different languages is a challenging problem, primarily due to the lack of abundant samples for training. To address this challenge, recent studies have employed machine translation systems for the cross-lingual VQA task. This involves translating the evaluation samples into a source language (usually English) and using monolingual models (i.e., translate-test). However, our analysis reveals that translated texts contain unique characteristics distinct from human-written ones, referred to as translation artifacts. We find that these artifacts can significantly affect the models, confirmed by extensive experiments across diverse models, languages, and translation processes. In light of this, we present a simple data augmentation strategy that can alleviate the adverse impacts of translation artifacts.
arxiv情報
著者 | ChaeHun Park,Koanho Lee,Hyesu Lim,Jaeseok Kim,Junmo Park,Yu-Jung Heo,Du-Seong Chang,Jaegul Choo |
発行日 | 2024-06-04 14:00:02+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google