要約
視覚に基づいた会話における感情の形成を理解するための研究のテストベッドとして、感情の説明と推論のタスクである Affective Visual Dialog を紹介します。
このタスクには、(1) 対話ベースの質問応答 (2) 対話ベースの感情予測、および (3) 対話に基づく感情の説明の生成という 3 つのスキルが含まれます。
私たちの主な貢献は、AffectVisDial と呼ばれる大規模なデータセットの収集です。このデータセットは、50,000 の 10 ターンの視覚的に根拠のあるダイアログと、最終的な感情の帰属とダイアログに基づいたテキストによる感情の説明で構成され、合計 27,180 時間の作業時間になります。
データセットを収集する際の設計上の決定について説明し、会話の参加者に関連する質問者と回答者のタスクを紹介します。
私たちは、最先端のモデルから適応された確かな Affective Visual Dialog ベースラインをトレーニングし、デモンストレーションします。
注目すべきことに、私たちのモデルによって生成された応答は、視覚に基づいた会話に応じて有望な感情的推論能力を示しています。
私たちのプロジェクト ページは https://affective-visual-dialog.github.io でご覧いただけます。
要約(オリジナル)
We introduce Affective Visual Dialog, an emotion explanation and reasoning task as a testbed for research on understanding the formation of emotions in visually grounded conversations. The task involves three skills: (1) Dialog-based Question Answering (2) Dialog-based Emotion Prediction and (3) Affective emotion explanation generation based on the dialog. Our key contribution is the collection of a large-scale dataset, dubbed AffectVisDial, consisting of 50K 10-turn visually grounded dialogs as well as concluding emotion attributions and dialog-informed textual emotion explanations, resulting in a total of 27,180 working hours. We explain our design decisions in collecting the dataset and introduce the questioner and answerer tasks that are associated with the participants in the conversation. We train and demonstrate solid Affective Visual Dialog baselines adapted from state-of-the-art models. Remarkably, the responses generated by our models show promising emotional reasoning abilities in response to visually grounded conversations. Our project page is available at https://affective-visual-dialog.github.io.
arxiv情報
著者 | Kilichbek Haydarov,Xiaoqian Shen,Avinash Madasu,Mahmoud Salem,Li-Jia Li,Gamaleldin Elsayed,Mohamed Elhoseiny |
発行日 | 2024-08-27 07:22:50+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google