Generating Usage-related Questions for Preference Elicitation in Conversational Recommender Systems

要約

従来の推奨システムに対する会話型推奨システムの重要な特徴は、自然言語を使用してユーザーの好みを引き出す能力です。
現在、好みの誘発に対する主なアプローチは、アイテムやアイテムの属性について直接質問することです。
推奨事項を検索するユーザーは、特定のドメインで利用可能なオプションについて深い知識を持たない場合があります。
そのため、彼らは重要な属性や望ましい価値を認識していないかもしれません。
ただし、多くの設定では、アイテムの計画された使用について話すことは、ドメインに新しいものであっても、困難を提示するものではありません。
この論文では、アイテムの使用に基づいて暗黙の質問をすることにより、好みの誘発に対する新しいアプローチを提案します。
この作業の主な貢献の1つとして、クラウドソーシングを使用してマルチステージデータアノテーションプロトコルを開発して、高品質のラベル付きトレーニングデータセットを作成します。
もう1つの主な貢献は、質問生成タスクの4つのモデルの開発です。2つのテンプレートベースのベースラインモデルと2つのニューラルテキストからテキストモデルです。
テンプレートベースのモデルでは、トレーニングデータに見られる一般的なパターンをヒューリスティックに抽出しますが、ニューラルモデルはトレーニングデータを使用して質問を自動的に生成するために学習します。
自動評価のために機械翻訳の一般的なメトリックを使用して、私たちのアプローチは、限られたトレーニングデータであっても、誘発質問を生成するのに効果的であることを示しています。
さらに、ポイントワイズとペアワイズの評価デザインの両方を使用して、生成された質問を比較するために人間の評価を採用しています。
人間の評価結果は自動的な結果と一致しており、生成された質問の質について確実に結論を出すことができることがわかります。
最後に、モデルが制限を示すケースの詳細な分析を提供します。

要約(オリジナル)

A key distinguishing feature of conversational recommender systems over traditional recommender systems is their ability to elicit user preferences using natural language. Currently, the predominant approach to preference elicitation is to ask questions directly about items or item attributes. Users searching for recommendations may not have deep knowledge of the available options in a given domain. As such, they might not be aware of key attributes or desirable values for them. However, in many settings, talking about the planned use of items does not present any difficulties, even for those that are new to a domain. In this paper, we propose a novel approach to preference elicitation by asking implicit questions based on item usage. As one of the main contributions of this work, we develop a multi-stage data annotation protocol using crowdsourcing, to create a high-quality labeled training dataset. Another main contribution is the development of four models for the question generation task: two template-based baseline models and two neural text-to-text models. The template-based models use heuristically extracted common patterns found in the training data, while the neural models use the training data to learn to generate questions automatically. Using common metrics from machine translation for automatic evaluation, we show that our approaches are effective in generating elicitation questions, even with limited training data. We further employ human evaluation for comparing the generated questions using both pointwise and pairwise evaluation designs. We find that the human evaluation results are consistent with the automatic ones, allowing us to draw conclusions about the quality of the generated questions with certainty. Finally, we provide a detailed analysis of cases where the models show their limitations.

arxiv情報

著者 Ivica Kostric,Krisztian Balog,Filip Radlinski
発行日 2025-04-08 13:25:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.IR パーマリンク