Learning to Taste: A Multimodal Wine Dataset


視覚認識、言語、風味の関係を研究するための大規模なマルチモーダル ワイン データセットである WineSensed を紹介します。
このデータセットには、Vivino プラットフォームから厳選されたワインのラベルの 897,000 件の画像と、ワインの 824,000 件のレビューが含まれています。
350,000 を超えるユニークなヴィンテージがあり、年、地域、格付け、アルコール度数、価格、ブドウの組成が注釈付けされています。
私たちは、風味の類似性に基づいてワインをランク付けするよう依頼された 256 人の参加者を対象にワインテイスティング実験を実施することで、サブセットに対するきめ細かい風味の注釈を取得しました。その結果、ペアごとの風味の距離は 5,000 を超えました。
我々は、この共有概念埋め込み空間が、大まかなフレーバー分類 (アルコール度数、国、ブドウ、価格、格付け) のための個別の埋め込み空間を改善し、人間の複雑なフレーバー認識と一致することを実証します。


We present WineSensed, a large multimodal wine dataset for studying the relations between visual perception, language, and flavor. The dataset encompasses 897k images of wine labels and 824k reviews of wines curated from the Vivino platform. It has over 350k unique vintages, annotated with year, region, rating, alcohol percentage, price, and grape composition. We obtained fine-grained flavor annotations on a subset by conducting a wine-tasting experiment with 256 participants who were asked to rank wines based on their similarity in flavor, resulting in more than 5k pairwise flavor distances. We propose a low-dimensional concept embedding algorithm that combines human experience with automatic machine similarity kernels. We demonstrate that this shared concept embedding space improves upon separate embedding spaces for coarse flavor classification (alcohol percentage, country, grape, price, rating) and aligns with the intricate human perception of flavor.


著者 Thoranna Bender,Simon Møe Sørensen,Alireza Kashani,K. Eldjarn Hjorleifsson,Grethe Hyldig,Søren Hauberg,Serge Belongie,Frederik Warburg
発行日 2023-08-31 17:58:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク