要約
生成 AI の分野における最近の進歩を活用した、マルチモーダルな非定常コンテンツのゼロショット レコメンデーションの方法を紹介します。
私たちは、さまざまなモダリティの入力をテキスト記述としてレンダリングし、事前トレーニングされた LLM を利用して、意味的埋め込みを計算することによって数値表現を取得することを提案します。
すべてのコンテンツ項目の統一された表現が取得されると、追加の学習を行わずに、それらの間の適切な類似性メトリックを計算することによって推奨を実行できます。
入力が表形式、テキスト形式、および視覚的なデータで構成される合成マルチモーダル ナッジ環境でのアプローチを示します。
要約(オリジナル)
We present a method for zero-shot recommendation of multimodal non-stationary content that leverages recent advancements in the field of generative AI. We propose rendering inputs of different modalities as textual descriptions and to utilize pre-trained LLMs to obtain their numerical representations by computing semantic embeddings. Once unified representations of all content items are obtained, the recommendation can be performed by computing an appropriate similarity metric between them without any additional learning. We demonstrate our approach on a synthetic multimodal nudging environment, where the inputs consist of tabular, textual, and visual data.
arxiv情報
著者 | Rachel M. Harrison,Anton Dereventsov,Anton Bibin |
発行日 | 2023-10-01 02:57:42+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google