Composite Sketch+Text Queries for Retrieving Objects with Elusive Names and Complex Interactions

要約

限られた語彙を持つ非ネイティブスピーカーは、それらを視覚化することができたにもかかわらず、特定のオブジェクトを名前を付けるのに苦労しています。
さらに、ユーザーは、地面を掘る麻痺しているもの、たとえば、スケッチが困難な相互作用を備えたこのようなとらえどころのないオブジェクトを検索したい場合があります。
このような一般的で複雑な状況では、ユーザーは、名前が困難であるが描画しやすいオブジェクトの手描きのスケッチと、スケッチが困難であるが簡単なオブジェクトを説明するテキストを含む複合マルチモーダルクエリを受け入れる検索インターフェイスを希望します。
シーンとの属性または相互作用。
この新しい問題ステートメントは、以前によく研究されていたTBIR(テキストベースの画像検索)およびSBIR(スケッチベースの画像検索)の問題とはっきりと異なります。
この経験不足のタスクを研究するために、データセット、CSTBIR(Composite Sketch+Textベースの画像検索)をキュレートします。
2mクエリと108kの自然シーン画像。
さらに、この問題の解決策として、手描きのスケッチを使用して自然なシーンイメージに関連するオブジェクトをローカライズし、テキストと画像をエンコードする、この問題の解決策として、前提条件のマルチモーダルトランスベースのベースライン(Sketch+Text Network)を提案します。
画像検索を実行します。
対照学習に加えて、モデルのパフォーマンスを改善する複数のトレーニング目標を提案します。
広範な実験では、提案された方法が、テキストのみ、スケッチのみ、および複合クエリのモダリティのためのいくつかの最先端の検索方法よりも優れていることが示されています。
データセットとコードをプロジェクトWebサイトで利用できるようにします。

要約(オリジナル)

Non-native speakers with limited vocabulary often struggle to name specific objects despite being able to visualize them, e.g., people outside Australia searching for numbats. Further, users may want to search for such elusive objects with difficult-to-sketch interactions, e.g., numbat digging in the ground. In such common but complex situations, users desire a search interface that accepts composite multimodal queries comprising hand-drawn sketches of difficult-to-name but easy-to-draw objects and text describing difficult-to-sketch but easy-to-verbalize object attributes or interaction with the scene. This novel problem statement distinctly differs from the previously well-researched TBIR (text-based image retrieval) and SBIR (sketch-based image retrieval) problems. To study this under-explored task, we curate a dataset, CSTBIR (Composite Sketch+Text Based Image Retrieval), consisting of approx. 2M queries and 108K natural scene images. Further, as a solution to this problem, we propose a pretrained multimodal transformer-based baseline, STNET (Sketch+Text Network), that uses a hand-drawn sketch to localize relevant objects in the natural scene image, and encodes the text and image to perform image retrieval. In addition to contrastive learning, we propose multiple training objectives that improve the performance of our model. Extensive experiments show that our proposed method outperforms several state-of-the-art retrieval methods for text-only, sketch-only, and composite query modalities. We make the dataset and code available at our project website.

arxiv情報

著者 Prajwal Gatti,Kshitij Parikh,Dhriti Prasanna Paul,Manish Gupta,Anand Mishra
発行日 2025-02-12 14:22:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV, cs.IR, cs.MM パーマリンク