要約
教育アシスタントなどのビデオベースのダイアログシステムは、説得力のあるアプリケーション価値を持ち、それによって関心が高まっています。
ただし、現在のビデオベースのダイアログシステムは、単一のダイアログタイプに依存することによって制限されています。これは、質問を回答、感情的な対話などを含むさまざまなシナリオにわたる実際のアプリケーションでの汎用性を妨げます。このホワイトペーパーでは、この課題をビデオ駆動型の多言語の混合タイプの対話を生成する方法として特定します。
この課題を緩和するために、新しいタスクを提案し、クワイチャットと呼ばれる人間から人間へのビデオ駆動型の多言語の混合タイプのダイアログコーパスを作成します。これは、合計93,209のビデオと246,080のダイアログを含む、4つのダイアログタイプ、30ドメイン、4つの言語、および13のトピックを含みます。
さらに、Kwaichatにベースラインモデルを確立します。
KWAICHATでの7個の異なるLLMの広範な分析により、GPT-4Oは最高のパフォーマンスを達成しますが、コンテキスト内学習と微調整の助けを借りてもこの状況ではうまく機能できないことが明らかになりました。
要約(オリジナル)
Video-based dialogue systems, such as education assistants, have compelling application value, thereby garnering growing interest. However, the current video-based dialogue systems are limited by their reliance on a single dialogue type, which hinders their versatility in practical applications across a range of scenarios, including question-answering, emotional dialog, etc. In this paper, we identify this challenge as how to generate video-driven multilingual mixed-type dialogues. To mitigate this challenge, we propose a novel task and create a human-to-human video-driven multilingual mixed-type dialogue corpus, termed KwaiChat, containing a total of 93,209 videos and 246,080 dialogues, across 4 dialogue types, 30 domains, 4 languages, and 13 topics. Additionally, we establish baseline models on KwaiChat. An extensive analysis of 7 distinct LLMs on KwaiChat reveals that GPT-4o achieves the best performance but still cannot perform well in this situation even with the help of in-context learning and fine-tuning, which indicates that the task is not trivial and needs further research.
arxiv情報
著者 | Xiaoming Shi,Zeming Liu,Yiming Lei,Chenkai Zhang,Haitao Leng,Chuan Wang,Qingjie Liu,Wanxiang Che,Shaoguo Liu,Size Li,Yunhong Wang |
発行日 | 2025-05-15 14:37:01+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google