Asking Multimodal Clarifying Questions in Mixed-Initiative Conversational Search

要約

混合イニシアチブの会話型検索システムでは、単一のクエリで意図を表現するのに苦労しているユーザーを支援するために、明確な質問が使用されます。
これらの質問は、ユーザーの情報ニーズを明らかにし、クエリの曖昧さを解決することを目的としています。
マルチモーダル情報が関連するシナリオでは、非テキスト情報を使用することで明確化プロセスを改善できるという仮説を立てています。
したがって、明確な質問に画像を追加し、オープンドメインの混合主導型会話検索システムでマルチモーダルな明確な質問をするという新しいタスクを定式化することを提案します。
このタスクの研究を促進するために、14,000 を超える画像で強化された 4,000 を超えるマルチモーダルな明確化質問を含む Melon という名前のデータセットを収集します。
また、Marto という名前のマルチモーダル クエリ明確化モデルを提案し、プロンプトベースの生成的微調整戦略を採用して、さまざまなプロンプトを使用してさまざまな段階のトレーニングを実行します。
クエリの明確化フェーズでマルチモーダル コンテンツの重要性を理解するために、いくつかの分析が実行されます。
実験結果によると、画像を追加すると、関連する画像を選択する際の検索パフォーマンスが最大 90% という大幅な向上につながります。
有効性と効率性の点で、識別ベースラインと比較した Marto の優位性を示すために、広範な分析も実行されます。

要約(オリジナル)

In mixed-initiative conversational search systems, clarifying questions are used to help users who struggle to express their intentions in a single query. These questions aim to uncover user’s information needs and resolve query ambiguities. We hypothesize that in scenarios where multimodal information is pertinent, the clarification process can be improved by using non-textual information. Therefore, we propose to add images to clarifying questions and formulate the novel task of asking multimodal clarifying questions in open-domain, mixed-initiative conversational search systems. To facilitate research into this task, we collect a dataset named Melon that contains over 4k multimodal clarifying questions, enriched with over 14k images. We also propose a multimodal query clarification model named Marto and adopt a prompt-based, generative fine-tuning strategy to perform the training of different stages with different prompts. Several analyses are conducted to understand the importance of multimodal contents during the query clarification phase. Experimental results indicate that the addition of images leads to significant improvements of up to 90% in retrieval performance when selecting the relevant images. Extensive analyses are also performed to show the superiority of Marto compared with discriminative baselines in terms of effectiveness and efficiency.

arxiv情報

著者 Yifei Yuan,Clemencia Siro,Mohammad Aliannejadi,Maarten de Rijke,Wai Lam
発行日 2024-02-12 16:04:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV パーマリンク