Retrieve, Annotate, Evaluate, Repeat: Leveraging Multimodal LLMs for Large-Scale Product Retrieval Evaluation

要約

実稼働レベルの検索システムを大規模に評価することは、十分に訓練されたヒューマン・アノテーターの大規模な人材が限られているため、非常に重要ですが困難な作業です。
大規模言語モデル (LLM) は、このスケーリングの問題に対処し、大部分のアノテーション タスクを人間に代わる実行可能な代替手段を提供する可能性があります。
このペーパーでは、(i) 個々のクエリに合わせたアノテーション ガイドラインを生成し、(ii) その後のアノテーション タスクを実行するためにマルチモーダル LLM を活用して、大規模な電子商取引環境で製品検索エンジンを評価するためのフレームワークを提案します。
大規模な電子商取引プラットフォームへの導入を通じて検証された当社の手法は、人間による注釈と同等の品質を実証し、時間とコストを大幅に削減し、迅速な問題発見を促進し、大規模な生産レベルの品質管理のための効果的なソリューションを提供します。

要約(オリジナル)

Evaluating production-level retrieval systems at scale is a crucial yet challenging task due to the limited availability of a large pool of well-trained human annotators. Large Language Models (LLMs) have the potential to address this scaling issue and offer a viable alternative to humans for the bulk of annotation tasks. In this paper, we propose a framework for assessing the product search engines in a large-scale e-commerce setting, leveraging Multimodal LLMs for (i) generating tailored annotation guidelines for individual queries, and (ii) conducting the subsequent annotation task. Our method, validated through deployment on a large e-commerce platform, demonstrates comparable quality to human annotations, significantly reduces time and cost, facilitates rapid problem discovery, and provides an effective solution for production-level quality control at scale.

arxiv情報

著者 Kasra Hosseini,Thomas Kober,Josip Krapac,Roland Vollgraf,Weiwei Cheng,Ana Peleteiro Ramallo
発行日 2024-09-18 10:30:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.ET, cs.HC, cs.IR パーマリンク