Multimodal Contextualized Semantic Parsing from Speech

要約

マルチモーダル入力を以前のコンテキストと統合することで人工エージェントのコンテキスト認識を強化するように設計されたタスクである、コンテキスト環境でのセマンティック解析 (SPICE) を紹介します。
SPICE は、人間のコミュニケーションの複雑さを反映して、エージェントの知識を新しい情報で動的に更新するための構造化された解釈可能なフレームワークを提供することで、従来の意味解析を超えています。
私たちは VG-SPICE データセットを開発し、音声と視覚データの統合を強調しながら、音声による会話のやり取りから視覚的なシーン グラフの構築をエージェントに要求するように作成しました。
また、VG-SPICE で使用するために開発された Audio-Vision Dialogue Scene Parser (AViD-SP) も紹介します。
これらのイノベーションは、マルチモーダルな情報処理と統合を改善することを目的としています。
VG-SPICE データセットと AViD-SP モデルは両方とも公開されています。

要約(オリジナル)

We introduce Semantic Parsing in Contextual Environments (SPICE), a task designed to enhance artificial agents’ contextual awareness by integrating multimodal inputs with prior contexts. SPICE goes beyond traditional semantic parsing by offering a structured, interpretable framework for dynamically updating an agent’s knowledge with new information, mirroring the complexity of human communication. We develop the VG-SPICE dataset, crafted to challenge agents with visual scene graph construction from spoken conversational exchanges, highlighting speech and visual data integration. We also present the Audio-Vision Dialogue Scene Parser (AViD-SP) developed for use on VG-SPICE. These innovations aim to improve multimodal information processing and integration. Both the VG-SPICE dataset and the AViD-SP model are publicly available.

arxiv情報

著者 Jordan Voas,Raymond Mooney,David Harwath
発行日 2024-06-10 16:31:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV, cs.HC, cs.LG, cs.SD, eess.AS パーマリンク