要約
大規模マルチモーダル モデル (LMM) は、さまざまな視覚および言語タスクにわたって優れたパフォーマンスを実証していますが、視覚支援を伴う推奨タスクにおける潜在的なアプリケーションはまだ解明されていません。
このギャップを埋めるために、OpenAI によって最近リリースされた LMM である GPT-4V(ison) の推奨機能を調査する予備的なケース スタディを紹介します。
私たちは複数のドメインにわたる一連の定性テスト サンプルを構築し、これらのサンプルを使用して推奨シナリオ内の GPT-4V の応答の品質を評価します。
これらのテストサンプルの評価結果は、GPT-4V がその堅牢な視覚的テキスト理解機能と広範な一般知識のおかげで、さまざまな領域にわたって優れたゼロショット推奨機能を備えていることを証明しています。
ただし、同様の入力が与えられた場合に同様の応答が得られる傾向など、GPT-4V をレコメンデーションに使用する場合のいくつかの制限も確認しました。
このレポートは、推奨シナリオでの GPT-4V の利用に関連する課題と研究の機会についての詳細な議論で締めくくられています。
私たちの目的は、LMM を視覚および言語タスクから推奨タスクに拡張する可能性を探ることです。
私たちは、より優れた多様性と双方向性を提供することでユーザー エクスペリエンスを向上できる、次世代のマルチモーダル生成レコメンデーション モデルに関するさらなる研究を促進したいと考えています。
このレポートで使用されているすべての画像とプロンプトは、https://github.com/PALIN2018/Evaluate_GPT-4V_Rec からアクセスできます。
要約(オリジナル)
Large Multimodal Models (LMMs) have demonstrated impressive performance across various vision and language tasks, yet their potential applications in recommendation tasks with visual assistance remain unexplored. To bridge this gap, we present a preliminary case study investigating the recommendation capabilities of GPT-4V(ison), a recently released LMM by OpenAI. We construct a series of qualitative test samples spanning multiple domains and employ these samples to assess the quality of GPT-4V’s responses within recommendation scenarios. Evaluation results on these test samples prove that GPT-4V has remarkable zero-shot recommendation abilities across diverse domains, thanks to its robust visual-text comprehension capabilities and extensive general knowledge. However, we have also identified some limitations in using GPT-4V for recommendations, including a tendency to provide similar responses when given similar inputs. This report concludes with an in-depth discussion of the challenges and research opportunities associated with utilizing GPT-4V in recommendation scenarios. Our objective is to explore the potential of extending LMMs from vision and language tasks to recommendation tasks. We hope to inspire further research into next-generation multimodal generative recommendation models, which can enhance user experiences by offering greater diversity and interactivity. All images and prompts used in this report will be accessible at https://github.com/PALIN2018/Evaluate_GPT-4V_Rec.
arxiv情報
著者 | Peilin Zhou,Meng Cao,You-Liang Huang,Qichen Ye,Peiyan Zhang,Junling Liu,Yueqi Xie,Yining Hua,Jaeboum Kim |
発行日 | 2023-11-07 18:39:10+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google