要約
ソーシャル メディアはファッション業界の活性化に重要な役割を果たしており、ファッション関連の投稿が毎日大量に生成されます。
投稿から豊富なファッション情報を取得するために、ソーシャルメディアのファッション知識抽出タスクを研究します。
ファッションの知識は、通常、機会、人物の属性、ファッション アイテムの情報で構成され、タプルのセットとして効果的に表現できます。
ファッション知識の抽出に関するこれまでの研究のほとんどは、ソーシャルメディア投稿のリッチテキスト情報を考慮せずに、ファッション商品の画像に基づいていました。
ソーシャルメディアにおけるファッション知識の抽出に関する既存の研究は分類ベースであり、事前に一連のファッション知識カテゴリを手動で決定する必要があります。
私たちの研究では、マルチモーダルな投稿情報の相互作用を捉えるために、タスクをキャプション問題としてキャストすることを提案します。
具体的には、文章変換手法を使用して、ファッション知識タプルを自然言語キャプションに変換します。
私たちのフレームワークは、ソーシャル メディアの投稿から直接、文章ベースのファッション知識を生成することを目的としています。
事前トレーニング済みモデルの大成功に触発されて、マルチモーダルな事前トレーニング済み生成モデルに基づいてモデルを構築し、知識抽出を強化するためのいくつかの補助タスクを設計します。
私たちのタスクに直接借用できる既存のデータセットがないため、手動のファッション知識の注釈が付いたソーシャル メディア投稿で構成されるデータセットを導入します。
私たちのモデルの有効性を実証するために、広範な実験が行われています。
要約(オリジナル)
Social media plays a significant role in boosting the fashion industry, where a massive amount of fashion-related posts are generated every day. In order to obtain the rich fashion information from the posts, we study the task of social media fashion knowledge extraction. Fashion knowledge, which typically consists of the occasion, person attributes, and fashion item information, can be effectively represented as a set of tuples. Most previous studies on fashion knowledge extraction are based on the fashion product images without considering the rich text information in social media posts. Existing work on fashion knowledge extraction in social media is classification-based and requires to manually determine a set of fashion knowledge categories in advance. In our work, we propose to cast the task as a captioning problem to capture the interplay of the multimodal post information. Specifically, we transform the fashion knowledge tuples into a natural language caption with a sentence transformation method. Our framework then aims to generate the sentence-based fashion knowledge directly from the social media post. Inspired by the big success of pre-trained models, we build our model based on a multimodal pre-trained generative model and design several auxiliary tasks for enhancing the knowledge extraction. Since there is no existing dataset which can be directly borrowed to our task, we introduce a dataset consisting of social media posts with manual fashion knowledge annotation. Extensive experiments are conducted to demonstrate the effectiveness of our model.
arxiv情報
著者 | Yifei Yuan,Wenxuan Zhang,Yang Deng,Wai Lam |
発行日 | 2023-09-28 09:07:48+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google