要約
このペーパーでは、マーケティング キーワードを追加して画像から製品説明を生成するための新しい設定を提案します。
視覚情報とテキスト情報を組み合わせた力を活用して、製品の独自の特徴に合わせた説明を作成します。
この設定の場合、以前の方法では、ビジュアルおよびテキストのエンコーダを利用して画像とキーワードをエンコードし、言語モデルベースのデコーダを利用して製品説明を生成していました。
ただし、同じカテゴリの製品には同様のコピーライティングがあり、大規模なサンプルで全体のフレームワークを最適化すると、モデルが一般的な単語に集中して製品の特徴を無視するため、生成される説明は不正確で一般的なものになることがよくあります。
この問題を軽減するために、ModICT という名前のシンプルで効果的なマルチモーダル インコンテキスト チューニング アプローチを紹介します。これは、同様の製品サンプルを参照として導入し、言語モデルのインコンテキスト学習機能を利用して記述を生成します。
トレーニング中は、ビジュアル エンコーダーと言語モデルをフリーズさせ、マルチモーダルなコンテキスト内参照と動的なプロンプトの作成を担当するモジュールの最適化に重点を置きます。
このアプローチでは、大規模言語モデル (LLM) の言語生成能力が維持され、記述の多様性が大幅に増加します。
さまざまな言語モデルのスケールとタイプにわたる ModICT の有効性を評価するために、電子商取引ドメイン内の 3 つの異なる製品カテゴリからデータを収集します。
広範な実験により、ModICT は従来の方法と比較して、生成された結果の精度 (Rouge-L で最大 3.3%) と多様性 (D-5 で最大 9.4%) が大幅に向上することが実証されました。
私たちの調査結果は、幅広いアプリケーションで製品説明の自動生成を強化するための貴重なツールとして ModICT の可能性を強調しています。
コードはhttps://github.com/HITsz-TMG/Multimodal-In-Context-Tuningにあります。
要約(オリジナル)
In this paper, we propose a new setting for generating product descriptions from images, augmented by marketing keywords. It leverages the combined power of visual and textual information to create descriptions that are more tailored to the unique features of products. For this setting, previous methods utilize visual and textual encoders to encode the image and keywords and employ a language model-based decoder to generate the product description. However, the generated description is often inaccurate and generic since same-category products have similar copy-writings, and optimizing the overall framework on large-scale samples makes models concentrate on common words yet ignore the product features. To alleviate the issue, we present a simple and effective Multimodal In-Context Tuning approach, named ModICT, which introduces a similar product sample as the reference and utilizes the in-context learning capability of language models to produce the description. During training, we keep the visual encoder and language model frozen, focusing on optimizing the modules responsible for creating multimodal in-context references and dynamic prompts. This approach preserves the language generation prowess of large language models (LLMs), facilitating a substantial increase in description diversity. To assess the effectiveness of ModICT across various language model scales and types, we collect data from three distinct product categories within the E-commerce domain. Extensive experiments demonstrate that ModICT significantly improves the accuracy (by up to 3.3% on Rouge-L) and diversity (by up to 9.4% on D-5) of generated results compared to conventional methods. Our findings underscore the potential of ModICT as a valuable tool for enhancing automatic generation of product descriptions in a wide range of applications. Code is at: https://github.com/HITsz-TMG/Multimodal-In-Context-Tuning
arxiv情報
著者 | Yunxin Li,Baotian Hu,Wenhan Luo,Lin Ma,Yuxin Ding,Min Zhang |
発行日 | 2024-03-07 11:29:50+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google