要約
この論文では、オープンドメイン画像に対する一般的な会話型画像検索のタスクを調査します。
目的は、人間とコンピュータの間の対話的な会話に基づいて画像を検索することです。
このタスクを進めるために、ChatSearch と呼ばれるデータセットをキュレートします。
このデータセットには、ターゲット画像ごとにマルチラウンドのマルチモーダルな会話コンテキスト クエリが含まれているため、検索システムはデータベースから正確な画像を見つける必要があります。
同時に、ChatSearcher という名前の生成検索モデルを提案します。これは、インターリーブされた画像とテキストの入力/出力を受け入れ/生成するようにエンドツーエンドでトレーニングされます。
ChatSearcher は、マルチモーダルなコンテキストを使用した推論において強力な機能を発揮し、世界の知識を活用して視覚的な検索結果を得ることができます。
ChatSearch データセットで優れたパフォーマンスを示し、他の画像検索タスクやビジュアル会話タスクでも優れた結果を達成します。
私たちは、この研究が対話型マルチモーダル検索システムに関するさらなる研究を刺激することを期待しています。
私たちのデータセットは https://github.com/joez17/ChatSearch で入手できます。
要約(オリジナル)
In this paper, we investigate the task of general conversational image retrieval on open-domain images. The objective is to search for images based on interactive conversations between humans and computers. To advance this task, we curate a dataset called ChatSearch. This dataset includes a multi-round multimodal conversational context query for each target image, thereby requiring the retrieval system to find the accurate image from database. Simultaneously, we propose a generative retrieval model named ChatSearcher, which is trained end-to-end to accept/produce interleaved image-text inputs/outputs. ChatSearcher exhibits strong capability in reasoning with multimodal context and can leverage world knowledge to yield visual retrieval results. It demonstrates superior performance on the ChatSearch dataset and also achieves competitive results on other image retrieval tasks and visual conversation tasks. We anticipate that this work will inspire further research on interactive multimodal retrieval systems. Our dataset will be available at https://github.com/joez17/ChatSearch.
arxiv情報
著者 | Zijia Zhao,Longteng Guo,Tongtian Yue,Erdong Hu,Shuai Shao,Zehuan Yuan,Hua Huang,Jing Liu |
発行日 | 2024-10-24 13:19:22+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google