IntentionQA: A Benchmark for Evaluating Purchase Intention Comprehension Abilities of Language Models in E-commerce

要約

電子商取引シナリオにおける購入意図を理解する言語モデル (LM) の能力を強化することは、さまざまな下流タスクで効果的に支援するために重要です。
ただし、LM から意図を抽出する以前のアプローチでは、現実世界の電子商取引のコンテキストに適用できる意味のある人間中心の意図を生成できないことがよくあります。
このため、LM による購入意向の真の理解と活用について懸念が生じます。
このペーパーでは、電子商取引における LM の購入意図の理解を評価するための、ダブルタスクの多肢選択式質問応答ベンチマークである IntentionQA を紹介します。
具体的には、LM は購入された製品に基づいて意図を推測し、それを利用して追加の購入を予測する任務を負っています。
IntentionQA は、3 つの難易度レベルにわたって慎重に精選された 4,360 の問題で構成されており、大規模な E コマース プラットフォームでのスケーラビリティを確保するために自動化されたパイプラインを使用して構築されています。
人間による評価により、ベンチマークの高品質と偽陰性率の低さが実証されています。
19 の言語モデルにわたる広範な実験により、製品と意図を正確に理解すること、製品と意図を組み合わせて推論することなど、特定のシナリオでは依然として苦労しており、人間のパフォーマンスには遠く及ばないことが示されています。
私たちのコードとデータは https://github.com/HKUST-KnowComp/IntentionQA で公開されています。

要約(オリジナル)

Enhancing Language Models’ (LMs) ability to understand purchase intentions in E-commerce scenarios is crucial for their effective assistance in various downstream tasks. However, previous approaches that distill intentions from LMs often fail to generate meaningful and human-centric intentions applicable in real-world E-commerce contexts. This raises concerns about the true comprehension and utilization of purchase intentions by LMs. In this paper, we present IntentionQA, a double-task multiple-choice question answering benchmark to evaluate LMs’ comprehension of purchase intentions in E-commerce. Specifically, LMs are tasked to infer intentions based on purchased products and utilize them to predict additional purchases. IntentionQA consists of 4,360 carefully curated problems across three difficulty levels, constructed using an automated pipeline to ensure scalability on large E-commerce platforms. Human evaluations demonstrate the high quality and low false-negative rate of our benchmark. Extensive experiments across 19 language models show that they still struggle with certain scenarios, such as understanding products and intentions accurately, jointly reasoning with products and intentions, and more, in which they fall far behind human performances. Our code and data are publicly available at https://github.com/HKUST-KnowComp/IntentionQA.

arxiv情報

著者 Wenxuan Ding,Weiqi Wang,Sze Heng Douglas Kwok,Minghao Liu,Tianqing Fang,Jiaxin Bai,Junxian He,Yangqiu Song
発行日 2024-06-14 16:51:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク