EventChat: Implementation and user-centric evaluation of a large language model-driven conversational recommender system for exploring leisure events in an SME context

要約

大規模言語モデル (LLM) は、会話型レコメンダー システム (CRS) の戦略的可能性において大きな進化をもたらします。
これまでのところ、研究は主に、エンドユーザーの評価や企業への戦略的影響ではなく、特に世界経済の基盤を構成する中小企業 (SME) の観点から、LLM 主導の CRS を実装するための技術的フレームワークに焦点を当ててきました。
経済。
今回の論文では、中小企業環境における LLM 主導の CRS の設計と、客観的なシステム指標と主観的なユーザー評価の両方を使用した現場でのその後のパフォーマンスについて詳しく説明します。
その際、急速に進化する分野での複製可能性を可能にする、LLM 駆動の CRS を評価するための短い形式の修正 ResQue モデルの概要も示します。
私たちの結果は、ユーザー エクスペリエンスの観点からは良好なシステム パフォーマンス (推奨精度 85.5%) を示していますが、ビジネスの実行可能性を脅かす遅延、コスト、品質の問題を浮き彫りにしています。
特に、インタラクションあたりのコストの中央値が 0.04 ドル、レイテンシが 5.7 秒であるため、中小企業向けのよりユーザー フレンドリーで経済的に実行可能な LLM ベースの CRS を実現するには、費用対効果と応答時間が重要な領域として浮上します。
これらのコストの主な原因の 1 つは、検索拡張生成 (RAG) 技術内のランカーとして高度な LLM を使用していることです。
さらに、私たちの結果は、基盤となる LLM として ChatGPT を使用したプロンプトベースの学習などのアプローチのみに依存すると、運用環境で満足のいく品質を達成することが困難になることを示しています。
LLM 主導の CRS を導入する中小企業のための戦略的考慮事項について、特に現在の技術情勢におけるトレードオフを考慮して概説します。

要約(オリジナル)

Large language models (LLMs) present an enormous evolution in the strategic potential of conversational recommender systems (CRS). Yet to date, research has predominantly focused upon technical frameworks to implement LLM-driven CRS, rather than end-user evaluations or strategic implications for firms, particularly from the perspective of a small to medium enterprises (SME) that makeup the bedrock of the global economy. In the current paper, we detail the design of an LLM-driven CRS in an SME setting, and its subsequent performance in the field using both objective system metrics and subjective user evaluations. While doing so, we additionally outline a short-form revised ResQue model for evaluating LLM-driven CRS, enabling replicability in a rapidly evolving field. Our results reveal good system performance from a user experience perspective (85.5% recommendation accuracy) but underscore latency, cost, and quality issues challenging business viability. Notably, with a median cost of $0.04 per interaction and a latency of 5.7s, cost-effectiveness and response time emerge as crucial areas for achieving a more user-friendly and economically viable LLM-driven CRS for SME settings. One major driver of these costs is the use of an advanced LLM as a ranker within the retrieval-augmented generation (RAG) technique. Our results additionally indicate that relying solely on approaches such as Prompt-based learning with ChatGPT as the underlying LLM makes it challenging to achieve satisfying quality in a production environment. Strategic considerations for SMEs deploying an LLM-driven CRS are outlined, particularly considering trade-offs in the current technical landscape.

arxiv情報

著者 Hannes Kunstmann,Joseph Ollier,Joel Persson,Florian von Wangenheim
発行日 2024-07-08 14:50:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 68T50, cs.AI, cs.CL, cs.IR, cs.LG, H.5.2 パーマリンク