ChineseEcomQA: A Scalable E-commerce Concept Evaluation Benchmark for Large Language Models

要約

eコマースなどのフィールドでの大規模な言語モデル(LLM)の使用が増えているため、ドメイン固有の概念評価ベンチマークは、ドメイン機能を評価するために重要です。
既存のLLMは、複雑なeコマースアプリケーション内で事実上誤った情報を生成する可能性があります。
したがって、eコマースコンセプトベンチマークを構築する必要があります。
既存のベンチマークは、2つの主要な課題に遭遇します。(1)タスクの不均一で多様な性質を処理します。(2)eコマース分野内の一般性と特異性を区別します。
これらの問題に対処するために、基本的なeコマースの概念に焦点を当てたスケーラブルな質問回答ベンチマークである\ textbf {chishecomqa}を提案します。
中国のqaは、3つのコア特性の上に構築されています。
基本的な概念は、さまざまな電子商取引タスクに適用できるように設計されているため、不均一性と多様性の課題に対処します。
さらに、一般性と特異性のバランスを慎重にバランスをとることにより、中国のCOMQAは幅広いeコマースの概念を効果的に区別し、ドメイン機能の正確な検証を可能にします。
これを実現し、LLM検証、検索の高等発電(RAG)検証、および厳密な手動注釈を組み合わせたスケーラブルなベンチマーク構築プロセスを通じて達成します。
中国語に基づいて、主流のLLMについて広範な評価を実施し、いくつかの貴重な洞察を提供します。
ChineseComqaが将来のドメイン固有の評価を導き、eコマースアプリケーションでのより広範なLLM採用を促進できることを願っています。

要約(オリジナル)

With the increasing use of Large Language Models (LLMs) in fields such as e-commerce, domain-specific concept evaluation benchmarks are crucial for assessing their domain capabilities. Existing LLMs may generate factually incorrect information within the complex e-commerce applications. Therefore, it is necessary to build an e-commerce concept benchmark. Existing benchmarks encounter two primary challenges: (1) handle the heterogeneous and diverse nature of tasks, (2) distinguish between generality and specificity within the e-commerce field. To address these problems, we propose \textbf{ChineseEcomQA}, a scalable question-answering benchmark focused on fundamental e-commerce concepts. ChineseEcomQA is built on three core characteristics: \textbf{Focus on Fundamental Concept}, \textbf{E-commerce Generality} and \textbf{E-commerce Expertise}. Fundamental concepts are designed to be applicable across a diverse array of e-commerce tasks, thus addressing the challenge of heterogeneity and diversity. Additionally, by carefully balancing generality and specificity, ChineseEcomQA effectively differentiates between broad e-commerce concepts, allowing for precise validation of domain capabilities. We achieve this through a scalable benchmark construction process that combines LLM validation, Retrieval-Augmented Generation (RAG) validation, and rigorous manual annotation. Based on ChineseEcomQA, we conduct extensive evaluations on mainstream LLMs and provide some valuable insights. We hope that ChineseEcomQA could guide future domain-specific evaluations, and facilitate broader LLM adoption in e-commerce applications.

arxiv情報

著者 Haibin Chen,Kangtao Lv,Chengwei Hu,Yanshi Li,Yujin Yuan,Yancheng He,Xingyao Zhang,Langming Liu,Shilei Liu,Wenbo Su,Bo Zheng
発行日 2025-02-27 15:36:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク