Feature Engineering in Learning-to-Rank for Community Question Answering Task

要約

コミュニティ質問応答 (CQA) フォーラムは、ユーザーがトピックについて質問し、他の専門家ユーザーが解決策を提供しようとするインターネット ベースのプラットフォームです。
Quora、Stackoverflow、Yahoo!Answer、StackExchange などの多くの CQA フォーラムには、ユーザーが生成したデータが大量に存在します。
これらのデータは、ユーザーのクエリに応じて同様の質問 (および回答) が提示される自動 CQA ランキング システムで活用されます。
この研究では、この領域のいくつかの側面を実証的に調査します。
まず、TF-IDF、BM25 などの従来の機能に加えて、質問と回答の間の意味的な類似性を捕捉する BERT ベースの機能を導入します。
第二に、既存の研究成果のほとんどは、質問部分からのみ抽出された特徴に焦点を当てています。
回答から抽出された特徴は広範囲に調査されていません。
両方のタイプの機能を直線的に組み合わせます。
第三に、私たちが提案した概念を使用して、さまざまなランク学習アルゴリズムを使用して実証的調査を実行します。そのうちのいくつかは、これまでCQAドメインで使用されていませんでした。
3 つの標準 CQA データセット上で、私たちが提案するフレームワークは最先端のパフォーマンスを実現します。
また、調査で使用する機能の重要性も分析します。
この作業は、実務者が CQA 検索タスクに適した特徴セットを選択できるようにするためのガイドとなることが期待されます。

要約(オリジナル)

Community question answering (CQA) forums are Internet-based platforms where users ask questions about a topic and other expert users try to provide solutions. Many CQA forums such as Quora, Stackoverflow, Yahoo!Answer, StackExchange exist with a lot of user-generated data. These data are leveraged in automated CQA ranking systems where similar questions (and answers) are presented in response to the query of the user. In this work, we empirically investigate a few aspects of this domain. Firstly, in addition to traditional features like TF-IDF, BM25 etc., we introduce a BERT-based feature that captures the semantic similarity between the question and answer. Secondly, most of the existing research works have focused on features extracted only from the question part; features extracted from answers have not been explored extensively. We combine both types of features in a linear fashion. Thirdly, using our proposed concepts, we conduct an empirical investigation with different rank-learning algorithms, some of which have not been used so far in CQA domain. On three standard CQA datasets, our proposed framework achieves state-of-the-art performance. We also analyze importance of the features we use in our investigation. This work is expected to guide the practitioners to select a better set of features for the CQA retrieval task.

arxiv情報

著者 Nafis Sajid,Md Rashidul Hasan,Muhammad Ibrahim
発行日 2023-09-14 11:18:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.IR, cs.LG パーマリンク