ImplicitAVE: An Open-Source Dataset and Multimodal LLMs Benchmark for Implicit Attribute Value Extraction

要約

属性値抽出 (AVE) 用の既存のデータセットは、主に明示的な属性値に焦点を当てており、暗黙的な属性値は無視されており、製品画像がなく、一般に公開されていないことが多く、さまざまなドメインにわたる人間による詳細な検査が不足しています。
これらの制限に対処するために、暗黙的な属性値抽出のための最初の公的に利用可能なマルチモーダル データセットである ImplicitAVE を紹介します。
MAVE データセットをソースとする ImplicitAVE は、慎重に厳選され、暗黙的 AVE とマルチモダリティを含むように拡張され、その結果、5 つのドメインにわたる 68,000 のトレーニング データと 1.6,000 のテスト データの洗練されたデータセットが得られます。
また、マルチモーダル大規模言語モデル (MLLM) の暗黙的 AVE への適用も検討し、ImplicitAVE データセット上で MLLM の包括的なベンチマークを確立します。
11 のバリアントを含む 6 つの最近の MLLM がさまざまな設定で評価され、暗黙的な値の抽出が MLLM にとって依然として困難なタスクであることが明らかになりました。
この研究の貢献には、ImplicitAVE の開発とリリース、Implicit AVE のさまざまな MLLM の調査とベンチマークが含まれており、貴重な洞察と将来の研究の方向性を提供します。
データセットとコードは https://github.com/HenryPengZou/ImplicitAVE で入手できます。

要約(オリジナル)

Existing datasets for attribute value extraction (AVE) predominantly focus on explicit attribute values while neglecting the implicit ones, lack product images, are often not publicly available, and lack an in-depth human inspection across diverse domains. To address these limitations, we present ImplicitAVE, the first, publicly available multimodal dataset for implicit attribute value extraction. ImplicitAVE, sourced from the MAVE dataset, is carefully curated and expanded to include implicit AVE and multimodality, resulting in a refined dataset of 68k training and 1.6k testing data across five domains. We also explore the application of multimodal large language models (MLLMs) to implicit AVE, establishing a comprehensive benchmark for MLLMs on the ImplicitAVE dataset. Six recent MLLMs with eleven variants are evaluated across diverse settings, revealing that implicit value extraction remains a challenging task for MLLMs. The contributions of this work include the development and release of ImplicitAVE, and the exploration and benchmarking of various MLLMs for implicit AVE, providing valuable insights and potential future research directions. Dataset and code are available at https://github.com/HenryPengZou/ImplicitAVE

arxiv情報

著者 Henry Peng Zou,Vinay Samuel,Yue Zhou,Weizhi Zhang,Liancheng Fang,Zihe Song,Philip S. Yu,Cornelia Caragea
発行日 2024-04-24 01:54:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV, cs.IR, cs.LG パーマリンク