TikTalk: A Video-Based Dialogue Dataset for Multi-Modal Chitchat in Real World

要約

マルチモーダル コンテキストを備えたインテリジェントで人間のようなチャットボットの研究を促進するために、TikTalk と呼ばれる新しいビデオベースのマルチモーダル対話データセットを導入します。
人気のビデオ共有プラットフォームから 38,000 のビデオと、その下にユーザーが投稿した 367,000 の会話を収集します。
ユーザーは、ビデオ視聴によるマルチモーダルな体験に基づいて自発的な会話に参加し、現実世界のおしゃべりのコンテキストを再現するのに役立ちます。
以前のマルチモーダル対話データセットと比較して、TikTalk ではコンテキスト タイプが豊富であるため、より多様な会話が可能になりますが、複雑なマルチモーダル情報から人間の興味を捉えてパーソナライズされた応答を生成することも困難になります。
さらに、外部の知識はデータセット内でより頻繁に呼び出されます。
これらの事実は、マルチモーダル対話モデルの新たな課題を明らかにしています。
TikTalk の特性を定量的に実証し、ビデオベースのマルチモーダルおしゃべりタスクを提案し、いくつかの対話ベースラインを評価します。
実験結果は、大規模言語モデル (LLM) を組み込んだモデルがより多様な応答を生成できる一方、ナレッジ グラフを利用して外部知識を導入するモデルが全体的に最も優れたパフォーマンスを発揮することを示しています。
さらに、既存のモデルでは上記のすべての課題をうまく解決できません。
視覚的な拡張機能を備えた LLM であっても、将来の改善の余地はまだ大きくあります。
私たちのデータセットは \url{https://ruc-aimind.github.io/projects/TikTalk/} で入手できます。

要約(オリジナル)

To facilitate the research on intelligent and human-like chatbots with multi-modal context, we introduce a new video-based multi-modal dialogue dataset, called TikTalk. We collect 38K videos from a popular video-sharing platform, along with 367K conversations posted by users beneath them. Users engage in spontaneous conversations based on their multi-modal experiences from watching videos, which helps recreate real-world chitchat context. Compared to previous multi-modal dialogue datasets, the richer context types in TikTalk lead to more diverse conversations, but also increase the difficulty in capturing human interests from intricate multi-modal information to generate personalized responses. Moreover, external knowledge is more frequently evoked in our dataset. These facts reveal new challenges for multi-modal dialogue models. We quantitatively demonstrate the characteristics of TikTalk, propose a video-based multi-modal chitchat task, and evaluate several dialogue baselines. Experimental results indicate that the models incorporating large language models (LLM) can generate more diverse responses, while the model utilizing knowledge graphs to introduce external knowledge performs the best overall. Furthermore, no existing model can solve all the above challenges well. There is still a large room for future improvements, even for LLM with visual extensions. Our dataset is available at \url{https://ruc-aimind.github.io/projects/TikTalk/}.

arxiv情報

著者 Hongpeng Lin,Ludan Ruan,Wenke Xia,Peiyu Liu,Jingyuan Wen,Yixin Xu,Di Hu,Ruihua Song,Wayne Xin Zhao,Qin Jin,Zhiwu Lu
発行日 2023-09-08 10:03:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク