TIFIN India at SemEval-2025: Harnessing Translation to Overcome Multilingual IR Challenges in Fact-Checked Claim Retrieval

要約

私たちは、以前に事実にチェックされた主張を単一言語的および横断的な設定で取得するという課題に対処します。これは、偽情報の世界的な有病率を考えると重要なタスクです。
私たちのアプローチは、2段階の戦略に従います。微調整された埋め込みモデルとLLMベースのRerankerを使用した信頼性の高いベースライン検索システムです。
私たちの重要な貢献は、LLMベースの翻訳が多言語情報の検索のハードルを克服する方法を実証することです。
さらに、消費者GPUでパイプラインの大部分を複製できるようにすることに焦点を当てます。
私たちの最終的な統合システムは、それぞれ単一言語および相互テストセットで0.938と0.81025の10スコア@10スコアを達成しました。

要約(オリジナル)

We address the challenge of retrieving previously fact-checked claims in monolingual and crosslingual settings – a critical task given the global prevalence of disinformation. Our approach follows a two-stage strategy: a reliable baseline retrieval system using a fine-tuned embedding model and an LLM-based reranker. Our key contribution is demonstrating how LLM-based translation can overcome the hurdles of multilingual information retrieval. Additionally, we focus on ensuring that the bulk of the pipeline can be replicated on a consumer GPU. Our final integrated system achieved a success@10 score of 0.938 and 0.81025 on the monolingual and crosslingual test sets, respectively.

arxiv情報

著者 Prasanna Devadiga,Arya Suneesh,Pawan Kumar Rajpoot,Bharatdeep Hazarika,Aditya U Baliga
発行日 2025-04-23 11:34:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク