Unlocking Markets: A Multilingual Benchmark to Cross-Market Question Answering

要約

ユーザーは、製品に関する多数の質問を電子商取引プラットフォームに投稿し、購入の意思決定に影響を与えます。
製品関連の質問応答 (PQA) では、製品関連のリソースを利用してユーザーに正確な応答を提供します。
我々は、多言語クロスマーケット製品ベースの質問応答(MCPQA)という新しいタスクを提案し、このタスクを、多言語コンテキストでリソースが豊富な別の補助市場からの情報を利用することによって、主要市場での製品関連の質問に対する回答を提供するものと定義します。
11 言語にわたる 17 のマーケットプレイスからの 700 万を超える質問で構成される大規模なデータセットを導入します。
次に、データセットのエレクトロニクス カテゴリに対して自動翻訳を実行し、McMarket という名前を付けます。
私たちは、レビューに基づく回答の生成と製品関連の質問のランキングという 2 つのサブタスクに重点を置いています。
各サブタスクについて、LLM を使用して McMarket のサブセットにラベルを付け、人間の評価によってアノテーションの品質をさらに評価します。
次に、McMarket と対応する LLM サブセットにわたる単一市場シナリオと市場間シナリオの両方で、従来の語彙モデルから LLM までの範囲のモデルを使用して、データセットのベンチマークを行うための実験を実施します。
結果は、市場横断的な情報を組み込むことで、両方のタスクのパフォーマンスが大幅に向上することを示しています。

要約(オリジナル)

Users post numerous product-related questions on e-commerce platforms, affecting their purchase decisions. Product-related question answering (PQA) entails utilizing product-related resources to provide precise responses to users. We propose a novel task of Multilingual Cross-market Product-based Question Answering (MCPQA) and define the task as providing answers to product-related questions in a main marketplace by utilizing information from another resource-rich auxiliary marketplace in a multilingual context. We introduce a large-scale dataset comprising over 7 million questions from 17 marketplaces across 11 languages. We then perform automatic translation on the Electronics category of our dataset, naming it as McMarket. We focus on two subtasks: review-based answer generation and product-related question ranking. For each subtask, we label a subset of McMarket using an LLM and further evaluate the quality of the annotations via human assessment. We then conduct experiments to benchmark our dataset, using models ranging from traditional lexical models to LLMs in both single-market and cross-market scenarios across McMarket and the corresponding LLM subset. Results show that incorporating cross-market information significantly enhances performance in both tasks.

arxiv情報

著者 Yifei Yuan,Yang Deng,Anders Søgaard,Mohammad Aliannejadi
発行日 2024-09-24 12:24:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク