Annif at SemEval-2025 Task 5: Traditional XMTC augmented by LLMs

要約

このホワイトペーパーでは、大規模な言語モデル(LLMS)を使用したサブジェクトインデックスに焦点を当てたSemeval-2025タスク5(LLMS4Subjects)のAnnifシステムを紹介します。
このタスクでは、GNDサブジェクトの語彙を使用して、バイリンガルTibkatデータベースから書誌記録のサブジェクト予測を作成する必要がありました。
私たちのアプローチは、Annif Toolkitに実装された従来の自然言語処理と機械学習技術と、翻訳および合成データ生成のための革新的なLLMベースの方法、および単一言語モデルからの予測の融合を組み合わせています。
システムは、全被験者カテゴリで1位、定量評価ではTIBコアサブジェクトカテゴリで2番目、定性評価で4位にランクされました。
これらの調査結果は、従来のXMTCアルゴリズムと最新のLLM技術を組み合わせて、多言語コンテキストでの主題インデックスの精度と効率を改善する可能性を示しています。

要約(オリジナル)

This paper presents the Annif system in SemEval-2025 Task 5 (LLMs4Subjects), which focussed on subject indexing using large language models (LLMs). The task required creating subject predictions for bibliographic records from the bilingual TIBKAT database using the GND subject vocabulary. Our approach combines traditional natural language processing and machine learning techniques implemented in the Annif toolkit with innovative LLM-based methods for translation and synthetic data generation, and merging predictions from monolingual models. The system ranked first in the all-subjects category and second in the tib-core-subjects category in the quantitative evaluation, and fourth in qualitative evaluations. These findings demonstrate the potential of combining traditional XMTC algorithms with modern LLM techniques to improve the accuracy and efficiency of subject indexing in multilingual contexts.

arxiv情報

著者 Osma Suominen,Juho Inkinen,Mona Lehtinen
発行日 2025-04-28 11:04:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.DL, cs.IR, cs.LG, I.2.7 パーマリンク