DialogCC: An Automated Pipeline for Creating High-Quality Multi-Modal Dialogue Dataset

要約

インスタント メッセージで画像を共有することは重要な要素であるため、画像とテキストのマルチモーダル対話モデルを学習する研究が活発に行われています。
ただし、既存のマルチモーダル対話データセットでは、対話ごとの画像の品質が低く、多様性が限られているため、よく一般化されたマルチモーダル対話モデルをトレーニングすることは依然として困難です。
この論文では、最小限の人的労力を必要とせずに、対話の品質と画像の多様性の両方を確保する、マルチモーダル対話データセットを構築するための自動パイプラインを提案します。
私たちのパイプラインでは、画像と対話の間の一貫性を保証するために、潜在的な画像共有の瞬間、具体的には発話、話者、根拠、画像の説明を推測するように GPT-4 に指示します。
さらに、CLIP の類似性を活用して、位置合わせされた複数の画像と発話の間の一貫性を維持します。
このパイプラインを通じて、人による評価の品質と多様性の点で既存のデータセットを上回る、高品質で多様なマルチモーダル対話データセットであるDialogCCを導入します。
私たちの包括的な実験では、私たちのデータセットを使用してマルチモーダル対話モデルをトレーニングすると、目に見えない対話データセットに対する汎化パフォーマンスが大幅に向上することが明らかになりました。
私たちはソースコードとデータセットを公開しています。

要約(オリジナル)

As sharing images in an instant message is a crucial factor, there has been active research on learning an image-text multi-modal dialogue models. However, training a well-generalized multi-modal dialogue model remains challenging due to the low quality and limited diversity of images per dialogue in existing multi-modal dialogue datasets. In this paper, we propose an automated pipeline to construct a multi-modal dialogue dataset, ensuring both dialogue quality and image diversity without requiring minimum human effort. In our pipeline, to guarantee the coherence between images and dialogue, we prompt GPT-4 to infer potential image-sharing moments – specifically, the utterance, speaker, rationale, and image description. Furthermore, we leverage CLIP similarity to maintain consistency between aligned multiple images to the utterance. Through this pipeline, we introduce DialogCC, a high-quality and diverse multi-modal dialogue dataset that surpasses existing datasets in terms of quality and diversity in human evaluation. Our comprehensive experiments highlight that when multi-modal dialogue models are trained using our dataset, their generalization performance on unseen dialogue datasets is significantly enhanced. We make our source code and dataset publicly available.

arxiv情報

著者 Young-Jun Lee,Byungsoo Ko,Han-Gyu Kim,Jonghwan Hyeon,Ho-Jin Choi
発行日 2024-03-29 15:27:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV パーマリンク