要約
自然言語生成(NLG)は、画像、動画、テキストの形で入力データを受け入れ、対応する自然言語テキストを出力として生成する。既存のNLG手法は主に教師ありアプローチを採用し、データとテキストの結合ペアに大きく依存している。しかし、多くの対象シナリオや英語以外の言語では、十分な量のラベル付きデータが利用できないことが多い。下流タスクのラベル付きデータへの依存を緩和するために、我々は直感的で効果的なゼロショット学習フレームワークZeroNLGを提案する。ZeroNLGは、英語、中国語、ドイツ語、フランス語にまたがる画像対テキスト(画像キャプション)、ビデオ対テキスト(ビデオキャプション)、テキスト対テキスト(ニューラル機械翻訳)を含む複数のNLGタスクを、統一されたフレームワークで扱うことができる。ZeroNLGは学習にラベル付けされた下流のペアを必要としない。学習中、ZeroNLGは、(i)異なるドメイン(モダリティや言語を超えて)を、共有された共通の潜在空間内の対応する座標に投影し、(ii)この空間内の対応する座標を整列させることにより、異なるドメインを橋渡しし、(iii)教師なし多言語自動エンコーダを構築し、共有潜在空間内の座標を与えられた入力テキストを再構成することにより、テキストを生成することを学習する。その結果、推論中、データからテキストへのパイプラインに基づき、ZeroNLGは、共通空間における入力データの座標を与えれば、異なる言語間で目標文を生成することができる。この統一されたフレームワークの中で、ZeroNLGは、入力としてビジュアル(画像またはビデオ)データが与えられると、ゼロショットでビジュアルキャプション付けを行うことができ、入力としてテキスト文が与えられると、ゼロショットで機械翻訳を行うことができる。12のNLGタスクに関する広範な実験結果を紹介し、ラベル付けされた下流のペアを学習に使用することなく、ZeroNLGが高品質で信頼できる出力を生成し、既存のゼロショット手法を大幅に上回ることを示す。
要約(オリジナル)
Natural Language Generation (NLG) accepts input data in the form of images, videos, or text and generates corresponding natural language text as output. Existing NLG methods mainly adopt a supervised approach and rely heavily on coupled data-to-text pairs. However, for many targeted scenarios and for non-English languages, sufficient quantities of labeled data are often not available. To relax the dependency on labeled data of downstream tasks, we propose an intuitive and effective zero-shot learning framework, ZeroNLG, which can deal with multiple NLG tasks, including image-to-text (image captioning), video-to-text (video captioning), and text-to-text (neural machine translation), across English, Chinese, German, and French within a unified framework. ZeroNLG does not require any labeled downstream pairs for training. During training, ZeroNLG (i) projects different domains (across modalities and languages) to corresponding coordinates in a shared common latent space; (ii) bridges different domains by aligning their corresponding coordinates in this space; and (iii) builds an unsupervised multilingual auto-encoder to learn to generate text by reconstructing the input text given its coordinate in shared latent space. Consequently, during inference, based on the data-to-text pipeline, ZeroNLG can generate target sentences across different languages given the coordinate of input data in the common space. Within this unified framework, given visual (imaging or video) data as input, ZeroNLG can perform zero-shot visual captioning; given textual sentences as input, ZeroNLG can perform zero-shot machine translation. We present the results of extensive experiments on twelve NLG tasks, showing that, without using any labeled downstream pairs for training, ZeroNLG generates high-quality and believable outputs and significantly outperforms existing zero-shot methods.
arxiv情報
著者 | Bang Yang,Fenglin Liu,Yuexian Zou,Xian Wu,Yaowei Wang,David A. Clifton |
発行日 | 2024-06-03 12:47:12+00:00 |
arxivサイト | arxiv_id(pdf) |