Rankify: A Comprehensive Python Toolkit for Retrieval, Re-Ranking, and Retrieval-Augmented Generation

要約

検索、再ランキング、および検索の高等発電(RAG)は、情報検索、質問回答、知識ベースのテキスト生成における最新の自然言語処理(NLP)アプリケーションの重要なコンポーネントです。
ただし、既存のソリューションはしばしば断片化されており、これらの重要なプロセスを簡単に統合する統一されたフレームワークがありません。
検索と再ランクのワークフローの複雑さと相まって、標準化された実装がないため、研究者が一貫した環境でさまざまなアプローチを比較して評価することが困難になります。
RerankersやRankllmなどの既存のツールキットは、一般的な目的の再ランキングパイプラインを提供しますが、多くの場合、微調整された実験とベンチマークに必要な柔軟性が欠けています。
これらの課題に応えて、取得、再ランク、およびぼろきれを統合するように設計された強力でモジュールのオープンソースツールキットである\ textBf {rankify}を導入します。
Rankifyは、検索の品質を向上させるために最先端の再ランキングモデルを組み込んでいる一方で、密集したスパースレトリバーを含む幅広い検索技術をサポートしています。
さらに、Rankifyには、Huggingface(https://huggingface.co/datasets/abdoelsayed/reranking-datasets)で入手可能なベンチマークを容易にするための事前に取得したデータセットのコレクションが含まれています。
採用と統合の容易さを奨励するために、包括的なドキュメント(http://rankify.readthedocs.io/)、github(https://github.com/datascienceuibk/rankify)でのオープンソースの実装、およびPypiパッケージを提供します。
簡単なインストール(https://pypi.org/project/rankify/)。
統一された軽量のフレームワークを提供することにより、RANKIFYにより、研究者と実践者は、一貫性、スケーラビリティ、使いやすさを確保しながら、検索と再ランクの方法論を進めることができます。

要約(オリジナル)

Retrieval, re-ranking, and retrieval-augmented generation (RAG) are critical components of modern natural language processing (NLP) applications in information retrieval, question answering, and knowledge-based text generation. However, existing solutions are often fragmented, lacking a unified framework that easily integrates these essential processes. The absence of a standardized implementation, coupled with the complexity of retrieval and re-ranking workflows, makes it challenging for researchers to compare and evaluate different approaches in a consistent environment. While existing toolkits such as Rerankers and RankLLM provide general-purpose reranking pipelines, they often lack the flexibility required for fine-grained experimentation and benchmarking. In response to these challenges, we introduce \textbf{Rankify}, a powerful and modular open-source toolkit designed to unify retrieval, re-ranking, and RAG within a cohesive framework. Rankify supports a wide range of retrieval techniques, including dense and sparse retrievers, while incorporating state-of-the-art re-ranking models to enhance retrieval quality. Additionally, Rankify includes a collection of pre-retrieved datasets to facilitate benchmarking, available at Huggingface (https://huggingface.co/datasets/abdoelsayed/reranking-datasets). To encourage adoption and ease of integration, we provide comprehensive documentation (http://rankify.readthedocs.io/), an open-source implementation on GitHub(https://github.com/DataScienceUIBK/rankify), and a PyPI package for effortless installation(https://pypi.org/project/rankify/). By providing a unified and lightweight framework, Rankify allows researchers and practitioners to advance retrieval and re-ranking methodologies while ensuring consistency, scalability, and ease of use.

arxiv情報

著者 Abdelrahman Abdallah,Bhawna Piryani,Jamshid Mozafari,Mohammed Ali,Adam Jatowt
発行日 2025-02-05 17:38:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.IR パーマリンク