要約
特定のドキュメントに関連する可能性のあるタグのリストを作成することにより、図書館員がサブジェクトタグをライブラリレコードに割り当てるのを支援することを目的としたSemeval-2025のタスク5への提出を提示します。
タスクを情報検索の問題としてフレーム化します。この問題は、ドキュメントコンテンツを使用して、大規模な科目分類法からサブジェクトタグを取得するために使用されます。
2種類のエンコーダーモデルを活用して、2段階の情報検索システムを構築します。第1段階での粗粒候補の候補抽出のためのBi-Encoderと、第2段階での細粒の再ランキングのクロスエンコーダーです。
このアプローチは効果的であることが証明され、単一段階の方法と比較してリコールの大幅な改善を実証し、定性的評価に従って競争結果を示しました。
要約(オリジナル)
We present our submission to the Task 5 of SemEval-2025 that aims to aid librarians in assigning subject tags to the library records by producing a list of likely relevant tags for a given document. We frame the task as an information retrieval problem, where the document content is used to retrieve subject tags from a large subject taxonomy. We leverage two types of encoder models to build a two-stage information retrieval system — a bi-encoder for coarse-grained candidate extraction at the first stage, and a cross-encoder for fine-grained re-ranking at the second stage. This approach proved effective, demonstrating significant improvements in recall compared to single-stage methods and showing competitive results according to qualitative evaluation.
arxiv情報
著者 | Aleksei Dorkin,Kairit Sirts |
発行日 | 2025-04-30 11:44:08+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google