Learning Reasoning Paths over Semantic Graphs for Video-grounded Dialogues

要約

従来の視覚的な質問応答と比較して、ビデオベースの対話では、複数ターンの設定で質問に答えるために、対話のコンテキストに関する追加の推論が必要です。
ビデオベースのダイアログに対する以前のアプローチでは、ターン レベルで固有の情報フローをモデル化することなく、ダイアログ コンテキストを単純なテキスト入力として使用することがほとんどでした。
本稿では、対話コンテキストにおける推論パス (PDC) の新しいフレームワークを提案します。
PDC モデルは、各質問と回答の語彙コンポーネントに基づいて構築されたセマンティック グラフを通じて、対話ターン間の情報の流れを発見します。
次に、PDC モデルは、このセマンティック グラフの推論パスを予測することを学習します。
私たちの経路予測モデルは、現在のターンから、現在の質問に答える追加の視覚的合図を含む過去の対話ターンまでの経路を予測します。
私たちの推論モデルは、この推論パスを介して視覚情報とテキスト情報の両方を順次処理し、伝播された機能を使用して答えを生成します。
私たちの実験結果は、私たちの方法の有効性を実証し、モデルが対話コンテキストでセマンティック依存関係を使用して視覚的な手がかりを取得する方法に関する追加の洞察を提供します。

要約(オリジナル)

Compared to traditional visual question answering, video-grounded dialogues require additional reasoning over dialogue context to answer questions in a multi-turn setting. Previous approaches to video-grounded dialogues mostly use dialogue context as a simple text input without modelling the inherent information flows at the turn level. In this paper, we propose a novel framework of Reasoning Paths in Dialogue Context (PDC). PDC model discovers information flows among dialogue turns through a semantic graph constructed based on lexical components in each question and answer. PDC model then learns to predict reasoning paths over this semantic graph. Our path prediction model predicts a path from the current turn through past dialogue turns that contain additional visual cues to answer the current question. Our reasoning model sequentially processes both visual and textual information through this reasoning path and the propagated features are used to generate the answer. Our experimental results demonstrate the effectiveness of our method and provide additional insights on how models use semantic dependencies in a dialogue context to retrieve visual cues.

arxiv情報

著者 Hung Le,Nancy F. Chen,Steven C. H. Hoi
発行日 2022-12-07 15:35:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG パーマリンク