要約
効果的な人間と意思決定のバランスは、3つの重要な要素をバランスさせます。\ textit {正しさ}の予測、知識と推論の複雑さの\ textit {cost}、および\ textit {abstain}の回答を自動化するか、人間の専門家を巻き込むかについての自信。
この作業では、複数の専門知識の層にタスクを適応的に委任するカスケードLLM決定フレームワークを提示します。最初の候補者の回答の基本モデル、より有能で知識豊富な(ただし費用がかかる)大規模なモデル、およびモデルがカスケードを控えるときの人間の専門家です。
私たちの方法は2つの段階で進行します。
まず、延期ポリシーは、ベースモデルの回答を受け入れるか、信頼性スコアに基づいて大きなモデルでそれを再生するかを決定します。
第二に、棄権ポリシーは、カスケードモデルの応答が十分に確実であるかどうか、または人間の介入を必要とするかどうかを決定します。
さらに、人間のフィードバックを活用して時間の経過とともに意思決定の質を向上させることができるオンライン学習メカニズムをフレームワークに組み込みます。
このアプローチは、一般的な質問(アークイエサとアークチャレンジ)および医学的質問(MedqaとMedMcqa)に対するこのアプローチを実証します。
私たちの結果は、私たちのカスケード戦略は、ほとんどの場合、コストを削減し、棄権を処理する原則的な方法を提供しながら、単一モデルのベースラインよりも優れていることを示しています。
要約(オリジナル)
Effective human-AI decision-making balances three key factors: the \textit{correctness} of predictions, the \textit{cost} of knowledge and reasoning complexity, and the confidence about whether to \textit{abstain} automated answers or involve human experts. In this work, we present a cascaded LLM decision framework that adaptively delegates tasks across multiple tiers of expertise — a base model for initial candidate answers, a more capable and knowledgeable (but costlier) large model, and a human expert for when the model cascade abstains. Our method proceeds in two stages. First, a deferral policy determines whether to accept the base model’s answer or regenerate it with the large model based on the confidence score. Second, an abstention policy decides whether the cascade model response is sufficiently certain or requires human intervention. Moreover, we incorporate an online learning mechanism in the framework that can leverage human feedback to improve decision quality over time. We demonstrate this approach to general question-answering (ARC-Easy and ARC-Challenge) and medical question-answering (MedQA and MedMCQA). Our results show that our cascaded strategy outperforms in most cases single-model baselines in accuracy while reducing cost and providing a principled way to handle abstentions.
arxiv情報
著者 | Claudio Fanconi,Mihaela van der Schaar |
発行日 | 2025-06-13 15:36:22+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google