Enhancing Visual Dialog State Tracking through Iterative Object-Entity Alignment in Multi-Round Conversations

要約

ビジュアル ダイアログ (VD) は、エージェントが複数ラウンドのダイアログ履歴に基づいて画像関連の一連の質問に答えるタスクです。
ただし、以前の VD 方法では、ラウンド レベルでの固有の会話情報フローを無視して、対話履歴全体を単純なテキスト入力として扱うことがよくありました。
このペーパーでは、質問に答えるために対話履歴から学習した対話状態を活用することで、この制限に対処するフレームワークであるマルチラウンド対話状態追跡モデル (MDST) を紹介します。
MDST は対話履歴の各ラウンドをキャプチャし、ビジョン言語表現の 2 タプルとして定義される内部対話状態表現を構築します。
これらの表現は現在の質問を効果的に根拠にし、正確な回答を生成できるようにします。
VisDial v1.0 データセットの実験結果は、MDST が生成設定で新しい最先端のパフォーマンスを達成することを示しています。
さらに、一連の人体研究を通じて、一連の質問に一貫して正しく答えながら、長く一貫した人間のような回答を生成する MDST の有効性を検証しました。

要約(オリジナル)

Visual Dialog (VD) is a task where an agent answers a series of image-related questions based on a multi-round dialog history. However, previous VD methods often treat the entire dialog history as a simple text input, disregarding the inherent conversational information flows at the round level. In this paper, we introduce Multi-round Dialogue State Tracking model (MDST), a framework that addresses this limitation by leveraging the dialogue state learned from dialog history to answer questions. MDST captures each round of dialog history, constructing internal dialogue state representations defined as 2-tuples of vision-language representations. These representations effectively ground the current question, enabling the generation of accurate answers. Experimental results on the VisDial v1.0 dataset demonstrate that MDST achieves a new state-of-the-art performance in generative setting. Furthermore, through a series of human studies, we validate the effectiveness of MDST in generating long, consistent, and human-like answers while consistently answering a series of questions correctly.

arxiv情報

著者 Wei Pang,Ruixue Duan,Jinfu Yang,Ning Li
発行日 2024-08-13 08:36:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV パーマリンク