要約
会話型AIの最近の進歩は、単一ターン応答の印象的な能力を実証していますが、マルチターンの対話は、最も洗練された言語モデルでさえも依然として挑戦的です。
現在のダイアログデータセットは、感情的な範囲、ドメインの多様性、回転深度が制限されており、主にテキストのみであり、モダリティ全体でより人間のような会話システムの開発の進歩を妨げています。
これらの制限に対処するために、41ドメインにまたがる40,150の高品質のマルチターンダイアログを含む大規模なマルチモーダルデータセットであるDeepDialogueを提示し、20個の異なる感情を一貫した感情的進行に組み込みます。
私たちのアプローチは、9つの異なる言語モデル(4B-72Bパラメーター)をペアにして、65,600の初期会話を生成し、ヒトの注釈とLLMベースの品質フィルタリングの組み合わせを通じて評価します。
結果のデータセットは、基本的な洞察を明らかにします。より小さなモデルは、6つのダイアログターンを超えて一貫性を維持できません。
具体的なドメイン(「車」、「旅行」など)は、抽象的な会話(例:「哲学」)よりも意味のある会話をもたらします。
また、クロスモデルの相互作用は、同一モデルの会話よりも一貫した対話を生成します。
Deepdialogueの重要な貢献は、40,150のすべての対話の感情一貫性のある声を統合し、マルチターン会話全体で感情的な文脈を忠実に保持する最初の大規模なオープンソースマルチモーダルダイアログデータセットを作成するスピーチコンポーネントです。
要約(オリジナル)
Recent advances in conversational AI have demonstrated impressive capabilities in single-turn responses, yet multi-turn dialogues remain challenging for even the most sophisticated language models. Current dialogue datasets are limited in their emotional range, domain diversity, turn depth, and are predominantly text-only, hindering progress in developing more human-like conversational systems across modalities. To address these limitations, we present DeepDialogue, a large-scale multimodal dataset containing 40,150 high-quality multi-turn dialogues spanning 41 domains and incorporating 20 distinct emotions with coherent emotional progressions. Our approach pairs 9 different language models (4B-72B parameters) to generate 65,600 initial conversations, which we then evaluate through a combination of human annotation and LLM-based quality filtering. The resulting dataset reveals fundamental insights: smaller models fail to maintain coherence beyond 6 dialogue turns; concrete domains (e.g., ‘cars,’ ‘travel’) yield more meaningful conversations than abstract ones (e.g., ‘philosophy’); and cross-model interactions produce more coherent dialogues than same-model conversations. A key contribution of DeepDialogue is its speech component, where we synthesize emotion-consistent voices for all 40,150 dialogues, creating the first large-scale open-source multimodal dialogue dataset that faithfully preserves emotional context across multi-turn conversations.
arxiv情報
著者 | Alkis Koudounas,Moreno La Quatra,Elena Baralis |
発行日 | 2025-05-26 13:37:10+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google