要約
フリーテキストの説明をさまざまなファブリック素材にリンクする新しいデータセット、text2fabric を紹介します。
このデータセットは、布地素材の 3,000 枚の対応する画像に関連付けられた 15,000 個の自然言語記述で構成されています。
従来、資料の説明はタグ/キーワードの形式で行われていましたが、これにより表現力が制限され、適切な語彙に関する既存の知識が生じ、最終的には断片的な説明システムにつながります。
したがって、私たちは、専門家以外の人がよく扱う可能性のある一般的なアイテムとして布地の使用例を取り上げ、素材の外観を説明するためのより適切な方法としてフリーテキストの使用を研究します。
データセットの分析に基づいて、説明から明らかになるコンパクトな用語集、一連の属性、および主要な構造を特定します。
これにより、人々が生地をどのように説明するかを正確に理解し、他のタイプの素材に一般化するための方向性を引き出すことができます。
また、私たちのデータセットにより、CLIP などの大規模な視覚言語モデルの特殊化が可能になり、生地の外観に意味のある潜在空間が作成され、きめ細かい素材検索や自動キャプションなどのアプリケーションが大幅に向上することが可能になることも示します。
要約(オリジナル)
We introduce text2fabric, a novel dataset that links free-text descriptions to various fabric materials. The dataset comprises 15,000 natural language descriptions associated to 3,000 corresponding images of fabric materials. Traditionally, material descriptions come in the form of tags/keywords, which limits their expressivity, induces pre-existing knowledge of the appropriate vocabulary, and ultimately leads to a chopped description system. Therefore, we study the use of free-text as a more appropriate way to describe material appearance, taking the use case of fabrics as a common item that non-experts may often deal with. Based on the analysis of the dataset, we identify a compact lexicon, set of attributes and key structure that emerge from the descriptions. This allows us to accurately understand how people describe fabrics and draw directions for generalization to other types of materials. We also show that our dataset enables specializing large vision-language models such as CLIP, creating a meaningful latent space for fabric appearance, and significantly improving applications such as fine-grained material retrieval and automatic captioning.
arxiv情報
著者 | Valentin Deschaintre,Julia Guerrero-Viu,Diego Gutierrez,Tamy Boubekeur,Belen Masia |
発行日 | 2023-07-25 17:39:39+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google