コミュニティ質問応答 (CQA) フォーラムは、ユーザーがトピックについて質問し、他の専門家ユーザーが解決策を提供しようとするインターネット ベースのプラットフォームです。
Quora、Stackoverflow、Yahoo!Answer、StackExchange などの多くの CQA フォーラムには、ユーザーが生成したデータが大量に存在します。
これらのデータは、ユーザーのクエリに応じて同様の質問 (および回答) が提示される自動 CQA ランキング システムで活用されます。
まず、TF-IDF、BM25 などの従来の機能に加えて、質問と回答の間の意味的な類似性を捕捉する BERT ベースの機能を導入します。
3 つの標準 CQA データセット上で、私たちが提案するフレームワークは最先端のパフォーマンスを実現します。
この作業は、実務者が CQA 検索タスクに適した特徴セットを選択できるようにするためのガイドとなることが期待されます。
Community question answering (CQA) forums are Internet-based platforms where users ask questions about a topic and other expert users try to provide solutions. Many CQA forums such as Quora, Stackoverflow, Yahoo!Answer, StackExchange exist with a lot of user-generated data. These data are leveraged in automated CQA ranking systems where similar questions (and answers) are presented in response to the query of the user. In this work, we empirically investigate a few aspects of this domain. Firstly, in addition to traditional features like TF-IDF, BM25 etc., we introduce a BERT-based feature that captures the semantic similarity between the question and answer. Secondly, most of the existing research works have focused on features extracted only from the question part; features extracted from answers have not been explored extensively. We combine both types of features in a linear fashion. Thirdly, using our proposed concepts, we conduct an empirical investigation with different rank-learning algorithms, some of which have not been used so far in CQA domain. On three standard CQA datasets, our proposed framework achieves state-of-the-art performance. We also analyze importance of the features we use in our investigation. This work is expected to guide the practitioners to select a better set of features for the CQA retrieval task.
著者 | Nafis Sajid,Md Rashidul Hasan,Muhammad Ibrahim |
発行日 | 2023-09-14 11:18:26+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google