CHAMPAGNE: Learning Real-world Conversation from Large-Scale Web Videos

要約

視覚情報は会話の中心です。たとえば、身振りや顔の表情は、言葉だけを超えた意味に貢献します。
ただし、これまでのところ、ほとんどのニューラル会話モデルはテキストのみに限定されています。
視覚的な文脈を説明できる会話の生成モデルである CHAMPAGNE を紹介します。
CHAMPAGNE をトレーニングするために、18M のビデオベースの対話の大規模なコーパスである YTD-18M を収集して公開します。
YTD-18M は Web ビデオから構築されています。データ収集パイプラインにとって重要なのは、意味を維持しながら、エラーが発生しやすい自動トランスクリプトをよりクリーンな対話形式に変換する事前トレーニング済みの言語モデルです。
人間による評価の結果、YTD-18M は視覚的な根拠を維持しながら、以前のリソース (MMDialog、1M ダイアログ) よりも賢明で具体的であることが明らかになりました。
実験によると、1) CHAMPAGNE は YTD-18M から会話を行うことを学習します。
2) 微調整すると、現実世界の会話に焦点を当てた 4 つの視覚言語タスクで最先端の結果が得られます。
https://seungjuhan.me/champagne でデータ、モデル、コードを公開しています。

要約(オリジナル)

Visual information is central to conversation: body gestures and facial expressions, for example, contribute to meaning that transcends words alone. To date, however, most neural conversational models are limited to just text. We introduce CHAMPAGNE, a generative model of conversations that can account for visual contexts. To train CHAMPAGNE, we collect and release YTD-18M, a large-scale corpus of 18M video-based dialogues. YTD-18M is constructed from web videos: crucial to our data collection pipeline is a pretrained language model that converts error-prone automatic transcripts to a cleaner dialogue format while maintaining meaning. Human evaluation reveals that YTD-18M is more sensible and specific than prior resources (MMDialog, 1M dialogues), while maintaining visual-groundedness. Experiments demonstrate that 1) CHAMPAGNE learns to conduct conversation from YTD-18M; and 2) when fine-tuned, it achieves state-of-the-art results on four vision-language tasks focused on real-world conversations. We release data, models, and code at https://seungjuhan.me/champagne.

arxiv情報

著者 Seungju Han,Jack Hessel,Nouha Dziri,Yejin Choi,Youngjae Yu
発行日 2023-03-17 01:10:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク