Adding Multimodal Capabilities to a Text-only Translation Model

要約

マルチモーダル機械翻訳 (MMT) の最新の研究では、トレーニングと評価に Multi30k データセットが使用されていますが、結果として得られるモデルは Multi30k データセットに極端に過剰適合していることがわかりました。
したがって、これらのモデルは、WMT ニューステスト データセットなどの一般的なテキストのみのテスト セットに対して評価すると、非常に悪いパフォーマンスになります。
Multi30k と一般的なテキストのみのデータセットの両方で良好なパフォーマンスを発揮するために、MMT モデルの開始点としてパフォーマンスの高いテキストのみの機械翻訳 (MT) モデルを使用します。
ゲートメカニズムを介して接続されたビジョンテキストアダプター層をMTモデルに追加し、1) ソーステキストのビジョンベースのマスキングを使用した事前トレーニングと2) Multi30kでの微調整によって、MTモデルをMMTモデルに段階的に変換します。

要約(オリジナル)

While most current work in multimodal machine translation (MMT) uses the Multi30k dataset for training and evaluation, we find that the resulting models overfit to the Multi30k dataset to an extreme degree. Consequently, these models perform very badly when evaluated against typical text-only testing sets such as the WMT newstest datasets. In order to perform well on both Multi30k and typical text-only datasets, we use a performant text-only machine translation (MT) model as the starting point of our MMT model. We add vision-text adapter layers connected via gating mechanisms to the MT model, and incrementally transform the MT model into an MMT model by 1) pre-training using vision-based masking of the source text and 2) fine-tuning on Multi30k.

arxiv情報

著者 Vipin Vijayan,Braeden Bowen,Scott Grigsby,Timothy Anderson,Jeremy Gwinnup
発行日 2024-03-05 15:28:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク