PUMGPT: A Large Vision-Language Model for Product Understanding

要約

マルチモーダル大規模言語モデルの最近の開発により、視覚言語タスクを解決する強力な能力が実証されました。
このペーパーでは、オンライン ショッピング エクスペリエンスを向上させる上で重要な役割を果たす製品理解タスクに焦点を当てます。
製品理解タスクにはさまざまなサブタスクが含まれており、モデルがマルチモーダルな製品情報に基づいてさまざまなクエリに応答する必要があります。
従来の方法では、サブタスクごとに個別のモデル アーキテクチャを設計します。
それどころか、我々は、単一のモデル構造の下ですべての製品理解タスクを統合することを目的とした大規模なビジョン言語モデルである PUMGPT を紹介します。
視覚表現とテキスト表現の間のギャップを埋めるために、私たちはレイヤーワイズ アダプター (LA) を提案します。これは、少ない視覚的トークンで強化された位置合わせを提供し、パラメーター効率の高い微調整を可能にするアプローチです。
さらに、固有のパラメータ効率の高い微調整機能により、PUMGPT を新製品理解タスクや新興製品に容易に適応させることができます。
さまざまな製品説明書データセットを生成するための説明書テンプレートを設計します。
同時に、トレーニング中にオープンドメイン データセットを利用して、PUMGPT のパフォーマンスとその汎化能力を向上させます。
広範な評価を通じて、PUMGPT は、製品キャプション、カテゴリの質問回答、属性抽出、属性の質問回答、さらには製品に関する自由形式の質問回答など、複数の製品理解タスクにわたって優れたパフォーマンスを示しています。

要約(オリジナル)

Recent developments of multi-modal large language models have demonstrated its strong ability in solving vision-language tasks. In this paper, we focus on the product understanding task, which plays an essential role in enhancing online shopping experience. Product understanding task includes a variety of sub-tasks, which require models to respond diverse queries based on multi-modal product information. Traditional methods design distinct model architectures for each sub-task. On the contrary, we present PUMGPT, a large vision-language model aims at unifying all product understanding tasks under a singular model structure. To bridge the gap between vision and text representations, we propose Layer-wise Adapters (LA), an approach that provides enhanced alignment with fewer visual tokens and enables parameter-efficient fine-tuning. Moreover, the inherent parameter-efficient fine-tuning ability allows PUMGPT to be readily adapted to new product understanding tasks and emerging products. We design instruction templates to generate diverse product instruction datasets. Simultaneously, we utilize open-domain datasets during training to improve the performance of PUMGPT and its generalization ability. Through extensive evaluations, PUMGPT demonstrates its superior performance across multiple product understanding tasks, including product captioning, category question-answering, attribute extraction, attribute question-answering, and even free-form question-answering about products.

arxiv情報

著者 Shuhui Wu,Zengming Tang,Zongyi Guo,Weiwei Zhang,Baoliang Cui,Haihong Tang,Weiming Lu
発行日 2023-08-18 14:01:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV パーマリンク