Disentangling Likes and Dislikes in Personalized Generative Explainable Recommendation

要約

説明可能な推奨事項に関する最近の調査では、一般に、タスクを標準的なテキスト生成の問題としてフレーム化し、予測された説明とグラウンドトゥルースの説明の間のテキストの類似性に基づいてモデルを評価します。
ただし、このアプローチでは、システムの重要な側面の1つを考慮することはできません。出力がユーザーの(購入後の)感情を正確に反映しているかどうか、つまり、推奨されるアイテムを望んでいるか、または嫌いなのか。
この問題に光を当てるために、ユーザーの感情に焦点を当てた新しいデータセットと評価方法を紹介します。
具体的には、LLMを使用した購入後のレビューからユーザーの肯定的および否定的な意見を明示的に抽出し、生成された説明がユーザーの感情とよく整合するかどうかに基づいてシステムを評価することを提案し、ターゲット項目のユーザーの肯定的および否定的な意見を正確に識別することを提案します。
データセットにいくつかの最近のモデルをベンチマークし、既存のメトリックで強力なパフォーマンスを達成しても、生成された説明がユーザーの感情とうまく調和していることを保証しないことを示しています。
最後に、既存のモデルは、ターゲットアイテムのユーザーの(予測)評価が入力としてモデルに直接供給されると、より感情を意識した説明を提供できることがわかります。
データセットとベンチマークの実装は、https://github.com/jchanxtarov/sent_xrecで入手できます。

要約(オリジナル)

Recent research on explainable recommendation generally frames the task as a standard text generation problem, and evaluates models simply based on the textual similarity between the predicted and ground-truth explanations. However, this approach fails to consider one crucial aspect of the systems: whether their outputs accurately reflect the users’ (post-purchase) sentiments, i.e., whether and why they would like and/or dislike the recommended items. To shed light on this issue, we introduce new datasets and evaluation methods that focus on the users’ sentiments. Specifically, we construct the datasets by explicitly extracting users’ positive and negative opinions from their post-purchase reviews using an LLM, and propose to evaluate systems based on whether the generated explanations 1) align well with the users’ sentiments, and 2) accurately identify both positive and negative opinions of users on the target items. We benchmark several recent models on our datasets and demonstrate that achieving strong performance on existing metrics does not ensure that the generated explanations align well with the users’ sentiments. Lastly, we find that existing models can provide more sentiment-aware explanations when the users’ (predicted) ratings for the target items are directly fed into the models as input. The datasets and benchmark implementation are available at: https://github.com/jchanxtarov/sent_xrec.

arxiv情報

著者 Ryotaro Shimizu,Takashi Wada,Yu Wang,Johannes Kruse,Sean O’Brien,Sai HtaungKham,Linxin Song,Yuya Yoshikawa,Yuki Saito,Fugee Tsung,Masayuki Goto,Julian McAuley
発行日 2025-06-02 08:41:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.IR, cs.LG パーマリンク