Decoding Style: Efficient Fine-Tuning of LLMs for Image-Guided Outfit Recommendation with Preference

要約

パーソナライズされた服装の推奨は依然として複雑な課題であり、ファッションの互換性の理解とトレンドの認識の両方が必要です。
この論文では、このタスクに大規模言語モデル (LLM) の表現力を活用し、微調整と直接フィードバックの統合を通じてその「ブラック ボックス」と静的な性質を軽減する新しいフレームワークを紹介します。
マルチモーダル大規模言語モデル (MLLM) を使用した画像キャプションを採用することで、商品説明における商品の視覚とテキストのギャップを埋めます。
これにより、LLM は人間が厳選したファッション画像からスタイルと色の特徴を抽出し、パーソナライズされた推奨事項の基礎を形成できるようになります。
LLM は、厳選されたファッション画像のオープンソース Polyvore データセット上で効率的に微調整され、スタイリッシュな服装を推奨する機能を最適化します。
LLM の意思決定プロセスを強化するために、否定的な例を使用した直接優先メカニズムが採用されています。
これにより、季節のファッション トレンドに合わせて推奨事項を継続的に改良する自己強化型 AI フィードバック ループが作成されます。
私たちのフレームワークは Polyvore データセットで評価され、2 つの重要なタスク、つまり空白埋めと補完的な項目検索での有効性が実証されています。
これらの評価は、スタイリッシュでトレンドに沿った服装の提案を生成し、直接のフィードバックを通じて継続的に改善するフレームワークの能力を強調しています。
評価結果は、私たちが提案したフレームワークがベースの LLM を大幅に上回り、より一貫性のある衣装を作成できることを示しました。
これらのタスクのパフォーマンスの向上は、提案されたフレームワークが正確な提案でショッピング体験を向上させる可能性を強調し、バニラ LLM ベースの服装生成よりもその有効性を証明しています。

要約(オリジナル)

Personalized outfit recommendation remains a complex challenge, demanding both fashion compatibility understanding and trend awareness. This paper presents a novel framework that harnesses the expressive power of large language models (LLMs) for this task, mitigating their ‘black box’ and static nature through fine-tuning and direct feedback integration. We bridge the item visual-textual gap in items descriptions by employing image captioning with a Multimodal Large Language Model (MLLM). This enables the LLM to extract style and color characteristics from human-curated fashion images, forming the basis for personalized recommendations. The LLM is efficiently fine-tuned on the open-source Polyvore dataset of curated fashion images, optimizing its ability to recommend stylish outfits. A direct preference mechanism using negative examples is employed to enhance the LLM’s decision-making process. This creates a self-enhancing AI feedback loop that continuously refines recommendations in line with seasonal fashion trends. Our framework is evaluated on the Polyvore dataset, demonstrating its effectiveness in two key tasks: fill-in-the-blank, and complementary item retrieval. These evaluations underline the framework’s ability to generate stylish, trend-aligned outfit suggestions, continuously improving through direct feedback. The evaluation results demonstrated that our proposed framework significantly outperforms the base LLM, creating more cohesive outfits. The improved performance in these tasks underscores the proposed framework’s potential to enhance the shopping experience with accurate suggestions, proving its effectiveness over the vanilla LLM based outfit generation.

arxiv情報

著者 Najmeh Forouzandehmehr,Nima Farrokhsiar,Ramin Giahi,Evren Korpeoglu,Kannan Achan
発行日 2024-09-18 17:15:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.IR, cs.LG パーマリンク