要約
食品画像からレシピを生成する応用の可能性を考えると、この分野は近年研究者から大きな注目を集めています。
レシピ生成の既存の作品は主に 2 段階の学習方法を使用しており、最初に材料を生成し、次に画像と材料の両方から指示を取得します。
大規模マルチモーダル モデル (LMM) は、さまざまな視覚および言語タスクにわたって顕著な成功を収めており、成分と命令の両方を画像から直接生成することに光を当てています。
それにもかかわらず、LMM はレシピ生成中に幻覚が現れるという一般的な問題に依然として直面しており、最適なパフォーマンスが得られません。
これに取り組むために、レシピ生成のための検索拡張された大規模なマルチモーダル モデルを提案します。
まず、Stochastic Diversified Retrieval Augmentation (SDRA) を導入して、補足として既存のデータストアから画像に意味論的に関連するレシピを取得し、それらをプロンプトに統合して、入力画像に多様で豊富なコンテキストを追加します。
さらに、最終出力として最も信頼性の高い予測レシピを決定するために、自己一貫性アンサンブル投票メカニズムが提案されています。
異なる検索レシピを生成のコンテキストとして使用して、生成されたレシピ候補間の整合性を計算します。
広範な実験により、私たちが提案した方法の有効性が検証され、Recipe1M データセット上のレシピ生成タスクにおける最先端 (SOTA) パフォーマンスが実証されました。
要約(オリジナル)
Given the potential applications of generating recipes from food images, this area has garnered significant attention from researchers in recent years. Existing works for recipe generation primarily utilize a two-stage training method, first generating ingredients and then obtaining instructions from both the image and ingredients. Large Multi-modal Models (LMMs), which have achieved notable success across a variety of vision and language tasks, shed light to generating both ingredients and instructions directly from images. Nevertheless, LMMs still face the common issue of hallucinations during recipe generation, leading to suboptimal performance. To tackle this, we propose a retrieval augmented large multimodal model for recipe generation. We first introduce Stochastic Diversified Retrieval Augmentation (SDRA) to retrieve recipes semantically related to the image from an existing datastore as a supplement, integrating them into the prompt to add diverse and rich context to the input image. Additionally, Self-Consistency Ensemble Voting mechanism is proposed to determine the most confident prediction recipes as the final output. It calculates the consistency among generated recipe candidates, which use different retrieval recipes as context for generation. Extensive experiments validate the effectiveness of our proposed method, which demonstrates state-of-the-art (SOTA) performance in recipe generation tasks on the Recipe1M dataset.
arxiv情報
著者 | Guoshan Liu,Hailong Yin,Bin Zhu,Jingjing Chen,Chong-Wah Ngo,Yu-Gang Jiang |
発行日 | 2024-11-13 15:58:50+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google