CSPRD: A Financial Policy Retrieval Dataset for Chinese Stock Market

要約

近年、事前トレーニング済み言語モデル (PLM) の大きな進歩により、研究に大きな焦点が当てられ、与えられた質問を含む膨大なコーパスから相対的なパッセージを取得することを目的とした高密度パッセージ検索のアプローチで有望なパフォーマンスが達成されました。
しかし、既存のデータセットのほとんどは、主に一般常識のファクトイドクエリを使用してモデルをベンチマークしている一方で、金融や経済などの特殊な分野は、専門家の注釈を備えた大規模で高品質のデータセットが不足しているため、未開拓のままです。
この研究では、中国株式政策検索データセット (CSPRD) を導入することで、新しいタスクである政策検索を提案します。これは、当社が収集した中国政策コーパスの 10,000 以上のエントリから関連する記事を、経験豊富な専門家によってラベル付けされた 700 以上の目論見書の一節を提供します。
字句、埋め込み、および微調整されたバイエンコーダ モデルに関する実験は、私たちが提案した CSPRD の有効性を示しているだけでなく、改善の可能性が十分にあることも示唆しています。
当社の最高パフォーマンスのベースラインは、開発セットで 56.1% MRR@10、28.5% NDCG@10、37.5% Recall@10、80.6% Precision@10 を達成しています。

要約(オリジナル)

In recent years, great advances in pre-trained language models (PLMs) have sparked considerable research focus and achieved promising performance on the approach of dense passage retrieval, which aims at retrieving relative passages from massive corpus with given questions. However, most of existing datasets mainly benchmark the models with factoid queries of general commonsense, while specialised fields such as finance and economics remain unexplored due to the deficiency of large-scale and high-quality datasets with expert annotations. In this work, we propose a new task, policy retrieval, by introducing the Chinese Stock Policy Retrieval Dataset (CSPRD), which provides 700+ prospectus passages labeled by experienced experts with relevant articles from 10k+ entries in our collected Chinese policy corpus. Experiments on lexical, embedding and fine-tuned bi-encoder models show the effectiveness of our proposed CSPRD yet also suggests ample potential for improvement. Our best performing baseline achieves 56.1% MRR@10, 28.5% NDCG@10, 37.5% Recall@10 and 80.6% Precision@10 on dev set.

arxiv情報

著者 Jinyuan Wang,Hai Zhao,Zhong Wang,Zeyang Zhu,Jinhao Xie,Yong Yu,Yongjian Fei,Yue Huang,Dawei Cheng
発行日 2023-09-08 15:40:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CE, cs.CL パーマリンク