An End-to-End Model for Photo-Sharing Multi-modal Dialogue Generation

要約

写真共有 マルチモーダル対話生成では、対話エージェントがテキスト応答を生成するだけでなく、適切な瞬間に写真を共有する必要があります。
画像テキスト キャプションをブリッジとして使用するパイプライン モデルは、画像キャプション モデル、テキスト生成モデル、画像生成モデルを統合して、この複雑なマルチモーダル タスクを処理します。
ただし、画像をテキスト キャプションで表すと、重要な視覚的な詳細や情報が失われ、複雑な対話システムでエラーが伝播する可能性があります。
さらに、個別の画像テキスト キャプションがエンドツーエンドの勾配伝播を妨げるため、パイプライン モデルは 3 つのモデルを個別に分離します。
我々は、画像パーセプトロンと画像ジェネレータを大規模な言語モデルと統合した、写真共有マルチモーダル対話生成のための最初のエンドツーエンドモデルを提案します。
大規模言語モデルは、入力端で視覚イメージを認識するために Q-Former を使用します。
出力側での画像生成については、動的語彙変換行列を提案し、ストレートスルーおよびガンベルソフトマックス手法を使用して大規模言語モデルと安定拡散モデルを調整し、エンドツーエンドの勾配伝播を実現します。
PhotoChat と DialogCC データセットで実験を実行し、エンドツーエンドのモデルを評価します。
パイプライン モデルと比較して、エンドツーエンド モデルは、テキストと画像生成のさまざまな指標において最先端のパフォーマンスを獲得します。
さらに多くの分析実験により、写真共有マルチモーダル対話生成におけるエンドツーエンド モデルの有効性も検証されています。

要約(オリジナル)

Photo-Sharing Multi-modal dialogue generation requires a dialogue agent not only to generate text responses but also to share photos at the proper moment. Using image text caption as the bridge, a pipeline model integrates an image caption model, a text generation model, and an image generation model to handle this complex multi-modal task. However, representing the images with text captions may loss important visual details and information and cause error propagation in the complex dialogue system. Besides, the pipeline model isolates the three models separately because discrete image text captions hinder end-to-end gradient propagation. We propose the first end-to-end model for photo-sharing multi-modal dialogue generation, which integrates an image perceptron and an image generator with a large language model. The large language model employs the Q-Former to perceive visual images in the input end. For image generation in the output end, we propose a dynamic vocabulary transformation matrix and use straight-through and gumbel-softmax techniques to align the large language model and stable diffusion model and achieve end-to-end gradient propagation. We perform experiments on PhotoChat and DialogCC datasets to evaluate our end-to-end model. Compared with pipeline models, the end-to-end model gains state-of-the-art performances on various metrics of text and image generation. More analysis experiments also verify the effectiveness of the end-to-end model for photo-sharing multi-modal dialogue generation.

arxiv情報

著者 Peiming Guo,Sinuo Liu,Yanzhao Zhang,Dingkun Long,Pengjun Xie,Meishan Zhang,Min Zhang
発行日 2024-08-16 10:33:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク