要約
Semeval 2025タスク5のシステム提出を提示します。これは、英語およびドイツの学術領域における言語間の主題分類に焦点を当てています。
当社のアプローチは、トレーニング中にバイリンガルデータを活用し、否定的なサンプリングとマージンベースの検索目標を採用しています。
内部寸法を大幅に削減することで設計されたトークンとしてのディメンションの自己関節メカニズムは、被験者の検索のために文の埋め込みを効果的にエンコードできることを実証します。
定量的評価では、当社のシステムは、一般的な定量的設定(すべての被験者)で32.24%の平均リコール率、一般的な定性的評価方法の43.16%および31.53%を最小限のGPU使用で獲得し、競争力のあるパフォーマンスを強調しました。
私たちの結果は、私たちのアプローチがリソースの制約の下で関連する主題情報をキャプチャするのに効果的であることを示していますが、まだ改善の余地があります。
要約(オリジナル)
We present our system submission for SemEval 2025 Task 5, which focuses on cross-lingual subject classification in the English and German academic domains. Our approach leverages bilingual data during training, employing negative sampling and a margin-based retrieval objective. We demonstrate that a dimension-as-token self-attention mechanism designed with significantly reduced internal dimensions can effectively encode sentence embeddings for subject retrieval. In quantitative evaluation, our system achieved an average recall rate of 32.24% in the general quantitative setting (all subjects), 43.16% and 31.53% of the general qualitative evaluation methods with minimal GPU usage, highlighting their competitive performance. Our results demonstrate that our approach is effective in capturing relevant subject information under resource constraints, although there is still room for improvement.
arxiv情報
著者 | Baharul Islam,Nasim Ahmad,Ferdous Ahmed Barbhuiya,Kuntal Dey |
発行日 | 2025-05-06 17:33:46+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google