HEAR: Hearing Enhanced Audio Response for Video-grounded Dialogue

要約

Video-grounded Dialogue (VGD) は、ビデオ、オーディオ、対話履歴で構成される特定のマルチモーダル入力に関する質問に答えることを目的としています。
応答の質を向上させるために VGD システムの開発には多くの努力が払われてきましたが、既存のシステムはビデオとテキストに情報を組み込むことしかできず、質問に対する適切な応答を生成する際に音声から必要な情報を抽出するのに苦労する傾向があります。
質問。
VGD システムは聴覚に障害があるようであり、したがって、現在のシステムが音声データを無視するこの症状を聴覚障害の応答として造語しました。
聴覚障害者の応答の問題を克服するために、質問が必要なときに選択的に音声に注意を向けることによって賢明なリスニングを実行するための聴覚強化音声応答 (HEAR) フレームワークが提案されています。
HEAR フレームワークは、モデルに依存しない方法で VGD システムの精度と可聴性を強化します。
HEAR は VGD データセット (AVSD@DSTC7 および AVSD@DSTC8) で検証されており、さまざまな VGD システムで有効性を示しています。

要約(オリジナル)

Video-grounded Dialogue (VGD) aims to answer questions regarding a given multi-modal input comprising video, audio, and dialogue history. Although there have been numerous efforts in developing VGD systems to improve the quality of their responses, existing systems are competent only to incorporate the information in the video and text and tend to struggle in extracting the necessary information from the audio when generating appropriate responses to the question. The VGD system seems to be deaf, and thus, we coin this symptom of current systems’ ignoring audio data as a deaf response. To overcome the deaf response problem, Hearing Enhanced Audio Response (HEAR) framework is proposed to perform sensible listening by selectively attending to audio whenever the question requires it. The HEAR framework enhances the accuracy and audibility of VGD systems in a model-agnostic manner. HEAR is validated on VGD datasets (i.e., AVSD@DSTC7 and AVSD@DSTC8) and shows effectiveness with various VGD systems.

arxiv情報

著者 Sunjae Yoon,Dahyun Kim,Eunseop Yoon,Hee Suk Yoon,Junyeong Kim,Chnag D. Yoo
発行日 2023-12-15 12:20:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.SD, eess.AS パーマリンク