要約
大規模な言語モデル(LLM)は、個人とグループの両方を対象とした推奨システムにますます適用されています。
以前は、グループ推奨システム(GRS)は、多くの場合、複数の人々の好みに基づいて単一の推奨事項を導き出すために、ソーシャル選択ベースの集約戦略を使用することがよくありました。
このホワイトペーパーでは、言語モデルがゼロショット学習に基づいてこれらの戦略を正しく実行できる条件を調査し、プロンプトのグループシナリオのフォーマットが精度に影響するかどうかを分析します。
私たちは、グループの複雑さ(ユーザーとアイテムの数)、異なるLLMの影響、コンテキスト内学習や説明の生成など、さまざまなプロンプト条件、およびグループ設定のフォーマットに特に焦点を当てました。
私たちの結果は、100以上の評価を考慮すると、パフォーマンスが悪化し始めることを示しています。
ただし、すべての言語モデルがグループの複雑さの成長に等しく敏感であるわけではありません。
さらに、コンテキスト内学習(ICL)がより高い程度のグループの複雑さでパフォーマンスを大幅に向上させることができることを示しましたが、他の迅速な変更を追加し、ドメインのキューを指定するか、説明をプロンプトしても精度に影響を与えませんでした。
将来の研究には、LLMのパフォーマンスへの影響により、GRS評価の要因としてグループの複雑さを含める必要があると結論付けています。
さらに、ユーザーあたりの評価リストやアイテムごとの評価リストなど、グループシナリオを異なる方法でフォーマットすることを示しました。
全体として、我々の研究は、LLMが少ないことが適切な条件下でグループの推奨事項を生成できることを意味し、コンピューティングのパワーとコストを必要とする小さなモデルを使用することをお勧めします。
要約(オリジナル)
Large Language Models (LLMs) are increasingly applied in recommender systems aimed at both individuals and groups. Previously, Group Recommender Systems (GRS) often used social choice-based aggregation strategies to derive a single recommendation based on the preferences of multiple people. In this paper, we investigate under which conditions language models can perform these strategies correctly based on zero-shot learning and analyse whether the formatting of the group scenario in the prompt affects accuracy. We specifically focused on the impact of group complexity (number of users and items), different LLMs, different prompting conditions, including In-Context learning or generating explanations, and the formatting of group preferences. Our results show that performance starts to deteriorate when considering more than 100 ratings. However, not all language models were equally sensitive to growing group complexity. Additionally, we showed that In-Context Learning (ICL) can significantly increase the performance at higher degrees of group complexity, while adding other prompt modifications, specifying domain cues or prompting for explanations, did not impact accuracy. We conclude that future research should include group complexity as a factor in GRS evaluation due to its effect on LLM performance. Furthermore, we showed that formatting the group scenarios differently, such as rating lists per user or per item, affected accuracy. All in all, our study implies that smaller LLMs are capable of generating group recommendations under the right conditions, making the case for using smaller models that require less computing power and costs.
arxiv情報
著者 | Cedric Waterschoot,Nava Tintarev,Francesco Barile |
発行日 | 2025-05-08 07:43:01+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google