Multi-Conditional Ranking with Large Language Models

要約

大規模言語モデル (LLM) を利用して一連の項目をランク付けすることは、推奨および検索システムにおける一般的なアプローチとなっています。
通常、これらのシステムは、指定されたクエリに基づいて、相当数のドキュメントを単調な順序で並べることに重点を置いています。
ただし、現実世界のシナリオでは、別の課題が発生することがよくあります。それは、さまざまな多様で、場合によっては矛盾する条件に従って、比較的小規模なアイテムのセットをランク付けすることです。
このペーパーでは、さまざまな項目タイプおよび条件にわたる複数条件ランキングを評価するために調整されたベンチマークである MCRank を導入することにより、複数条件ランキングのタスクを定義および調査します。
MCRank を使用した LLM の分析では、項目と条件の数と複雑さが増大するにつれて、パフォーマンスが大幅に低下することがわかりました。
この制限を克服するために、我々は、条件の抽出とソート、および項目の反復順位付け (EXSIR) から構成される、新しい分解推論方法を提案します。
私たちの広範な実験により、この分解推論方法が LLM のパフォーマンスを大幅に向上させ、既存の LLM と比較して最大 12% の向上を達成することが示されました。
また、さまざまな条件カテゴリにわたる LLM のパフォーマンスの詳細な分析も提供し、分解ステップの有効性を検査します。
さらに、私たちの方法を思考連鎖や既存のランキングモデルなどの既存のアプローチと比較し、私たちのアプローチの優位性とMCRタスクの複雑さを実証します。
データセットとコードをリリースしました。

要約(オリジナル)

Utilizing large language models (LLMs) to rank a set of items has become a common approach in recommendation and retrieval systems. Typically, these systems focus on ordering a substantial number of documents in a monotonic order based on a given query. However, real-world scenarios often present a different challenge: ranking a comparatively smaller set of items, but according to a variety of diverse and occasionally conflicting conditions. In this paper, we define and explore the task of multi-conditional ranking by introducing MCRank, a benchmark tailored for assessing multi-conditional ranking across various item types and conditions. Our analysis of LLMs using MCRank indicates a significant decrease in performance as the number and complexity of items and conditions grow. To overcome this limitation, we propose a novel decomposed reasoning method, consisting of EXtracting and Sorting the conditions, and then Iteratively Ranking the items (EXSIR). Our extensive experiments show that this decomposed reasoning method enhances LLMs’ performance significantly, achieving up to a 12% improvement over existing LLMs. We also provide a detailed analysis of LLMs performance across various condition categories, and examine the effectiveness of decomposition step. Furthermore, we compare our method with existing approaches such as Chain-of-Thought and existing ranking models, demonstrating the superiority of our approach and complexity of MCR task. We released our dataset and code.

arxiv情報

著者 Pouya Pezeshkpour,Estevam Hruschka
発行日 2024-08-09 17:28:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク