要約
マルチモーダル意図認識 (MIR) の目的は、テキスト、ビデオ、オーディオなどのさまざまなモダリティを活用してユーザーの意図を検出することです。これは、対話システムにおける人間の言語とコンテキストを理解するために重要です。
この分野の進歩にも関わらず、次の 2 つの主要な課題が依然として残っています。(1) 堅牢なテキスト特徴から意味論的な情報を効果的に抽出して利用する。
(2) 非言語的モダリティを言語的モダリティと効果的に調整し、融合させる。
このペーパーでは、これらの課題に対処するために、CommOnsense Knowledge Extractor (TECO) を使用したテキスト拡張を提案します。
まず、生成された知識と取得された知識の両方から関係を抽出して、テキスト モダリティのコンテキスト情報を充実させます。
その後、視覚的および音響的表現をこれらの強化されたテキスト機能と調整および統合して、一貫したマルチモーダル表現を形成します。
私たちの実験結果は、既存のベースライン手法に比べて大幅な改善が見られたことを示しています。
要約(オリジナル)
The objective of multimodal intent recognition (MIR) is to leverage various modalities-such as text, video, and audio-to detect user intentions, which is crucial for understanding human language and context in dialogue systems. Despite advances in this field, two main challenges persist: (1) effectively extracting and utilizing semantic information from robust textual features; (2) aligning and fusing non-verbal modalities with verbal ones effectively. This paper proposes a Text Enhancement with CommOnsense Knowledge Extractor (TECO) to address these challenges. We begin by extracting relations from both generated and retrieved knowledge to enrich the contextual information in the text modality. Subsequently, we align and integrate visual and acoustic representations with these enhanced text features to form a cohesive multimodal representation. Our experimental results show substantial improvements over existing baseline methods.
arxiv情報
| 著者 | Quynh-Mai Thi Nguyen,Lan-Nhi Thi Nguyen,Cam-Van Thi Nguyen |
| 発行日 | 2024-12-11 16:38:48+00:00 |
| arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google