要約
マルチモーダル コンテンツで応答することは、インテリジェントな会話型エージェントにとって不可欠な機能として認識されています。
このホワイト ペーパーでは、MMDialog データセットを導入して、マルチモーダルな会話をより容易にします。
MMDialog は、4,184 のトピックにわたる 153 万のユニークな画像を含む 108 万の現実世界の対話の精選されたセットで構成されています。
MMDialog には、2 つの主な独自の利点があります。
まず、対話数が 88 倍という最大のマルチモーダル会話データセットです。
第二に、オープンドメインを一般化するための膨大なトピックが含まれています。
このデータセットを使用して魅力的な対話システムを構築するために、検索シナリオと生成シナリオに基づいて 2 つの応答生成タスクを提案し、正規化します。
さらに、最先端の技術を使用して上記のタスクの 2 つのベースラインを構築し、それらの実験的パフォーマンスを報告します。
また、マルチモーダル応答を測定するための新しい評価メトリック MM-Relevance も提案します。
データセットとスクリプトは、https://github.com/victorsungo/MMDialog で入手できます。
要約(オリジナル)
Responding with multi-modal content has been recognized as an essential capability for an intelligent conversational agent. In this paper, we introduce the MMDialog dataset to better facilitate multi-modal conversation. MMDialog is composed of a curated set of 1.08 million real-world dialogues with 1.53 million unique images across 4,184 topics. MMDialog has two main and unique advantages. First, it is the largest multi-modal conversation dataset by the number of dialogues by 88x. Second, it contains massive topics to generalize the open-domain. To build engaging dialogue system with this dataset, we propose and normalize two response producing tasks based on retrieval and generative scenarios. In addition, we build two baselines for above tasks with state-of-the-art techniques and report their experimental performance. We also propose a novel evaluation metric MM-Relevance to measure the multi-modal responses. Our dataset and scripts are available in https://github.com/victorsungo/MMDialog.
arxiv情報
著者 | Jiazhan Feng,Qingfeng Sun,Can Xu,Pu Zhao,Yaming Yang,Chongyang Tao,Dongyan Zhao,Qingwei Lin |
発行日 | 2022-12-21 08:12:46+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google