Personalized Top-k Set Queries Over Predicted Scores

要約

この作業は、予測されたスコアにわたってトップKクエリに答える際の大規模な言語モデルなど、高価な外部オラクルの適用性を研究しています。
このようなスコアは、ユーザー定義の関数によって発生し、マルチモーダルデータを介したパーソナライズされたクエリに回答します。
関数を構築物に分解できる限り、任意のセットベースのスコアリング関数を処理する一般的な計算フレームワークを提案します。
特定の時点で、フレームワークは一連の応答とその部分的な予測スコアを想定しており、真のトップKになる可能性のあるセットのコレクションを維持します。
オラクルを呼び出すのは費用がかかるため、私たちのフレームワークは次の構造、つまり真のトップKを識別する可能性を最大化するために神託を尋ねる次の最良の質問を慎重に識別します。
その可能性を定量化する原則的な確率モデルを提示します。
アルゴリズムの設計における効率の機会を研究しています。
3つの大規模なデータセット、スコアリング機能、およびベースラインで評価を実行します。
実験は、結果の精度を確保しながらLLM呼び出しを必要とするベースラインよりも数桁の改善を達成するため、フレームワークの有効性を示しています。
スケーラビリティ実験は、大規模なアプリケーションでフレームワークを使用できることをさらに示しています。

要約(オリジナル)

This work studies the applicability of expensive external oracles such as large language models in answering top-k queries over predicted scores. Such scores are incurred by user-defined functions to answer personalized queries over multi-modal data. We propose a generic computational framework that handles arbitrary set-based scoring functions, as long as the functions could be decomposed into constructs, each of which sent to an oracle (in our case an LLM) to predict partial scores. At a given point in time, the framework assumes a set of responses and their partial predicted scores, and it maintains a collection of possible sets that are likely to be the true top-k. Since calling oracles is costly, our framework judiciously identifies the next construct, i.e., the next best question to ask the oracle so as to maximize the likelihood of identifying the true top-k. We present a principled probabilistic model that quantifies that likelihood. We study efficiency opportunities in designing algorithms. We run an evaluation with three large scale datasets, scoring functions, and baselines. Experiments indicate the efficacy of our framework, as it achieves an order of magnitude improvement over baselines in requiring LLM calls while ensuring result accuracy. Scalability experiments further indicate that our framework could be used in large-scale applications.

arxiv情報

著者 Sohrab Namazi Nia,Subhodeep Ghosh,Senjuti Basu Roy,Sihem Amer-Yahia
発行日 2025-02-18 16:19:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.DB, cs.LG パーマリンク