EventChat: Implementation and user-centric evaluation of a large language model-driven conversational recommender system for exploring leisure events in an SME context

要約

大規模言語モデル(LLM)は、会話型レコメンダーシステム(CRS)の戦略的可能性に大きな進化をもたらす。しかし、これまでの研究では、LLM駆動型CRSを実装するための技術的なフレームワークが中心であり、エンドユーザーの評価や企業、特にグローバル経済の根幹をなす中小企業(SME)の視点からの戦略的な意味合いには焦点が当てられていない。本論文では、中小企業環境におけるLLM駆動型CRSの設計と、客観的なシステム指標と主観的なユーザー評価の両方を用いた現場でのその後のパフォーマンスについて詳述する。また、LLM主導型CRSを評価するためのResQueモデルの改訂版も紹介し、急速に発展するこの分野での再現性を可能にする。その結果、ユーザー・エクスペリエンスの観点からは良好なシステム・パフォーマンス(推薦精度85.5%)を示したが、ビジネスの実行可能性を脅かす待ち時間、コスト、品質の問題が浮き彫りになった。特に、インタラクションあたりのコスト中央値は0.04ドル、レイテンシは5.7秒であり、費用対効果と応答時間は、中小企業環境において、よりユーザーフレンドリーで経済的に実行可能なLLM駆動型CRSを実現するための極めて重要な領域として浮かび上がってきた。これらのコストの主な要因の1つは、検索補強世代(RAG)手法のランカーとして高度なLLMを使用することである。さらに、我々の結果は、ChatGPTを基礎LLMとするプロンプトベースの学習などのアプローチのみに頼ることは、本番環境で満足のいく品質を達成することが困難であることを示している。中小企業がLLM駆動型CRSを導入する際の戦略的検討事項について、特に現在の技術状況におけるトレードオフを考慮しながら概説する。

要約(オリジナル)

Large language models (LLMs) present an enormous evolution in the strategic potential of conversational recommender systems (CRS). Yet to date, research has predominantly focused upon technical frameworks to implement LLM-driven CRS, rather than end-user evaluations or strategic implications for firms, particularly from the perspective of a small to medium enterprises (SME) that makeup the bedrock of the global economy. In the current paper, we detail the design of an LLM-driven CRS in an SME setting, and its subsequent performance in the field using both objective system metrics and subjective user evaluations. While doing so, we additionally outline a short-form revised ResQue model for evaluating LLM-driven CRS, enabling replicability in a rapidly evolving field. Our results reveal good system performance from a user experience perspective (85.5% recommendation accuracy) but underscore latency, cost, and quality issues challenging business viability. Notably, with a median cost of $0.04 per interaction and a latency of 5.7s, cost-effectiveness and response time emerge as crucial areas for achieving a more user-friendly and economically viable LLM-driven CRS for SME settings. One major driver of these costs is the use of an advanced LLM as a ranker within the retrieval-augmented generation (RAG) technique. Our results additionally indicate that relying solely on approaches such as Prompt-based learning with ChatGPT as the underlying LLM makes it challenging to achieve satisfying quality in a production environment. Strategic considerations for SMEs deploying an LLM-driven CRS are outlined, particularly considering trade-offs in the current technical landscape.

arxiv情報

著者 Hannes Kunstmann,Joseph Ollier,Joel Persson,Florian von Wangenheim
発行日 2024-07-05 12:42:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: 68T50, cs.AI, cs.CL, cs.IR, cs.LG, H.5.2 パーマリンク