Is ChatGPT Good at Search? Investigating Large Language Models as Re-Ranking Agent

要約

タイトル:大規模言語モデルの再ランキングエージェントとしてのChatGPTの優れた能力について

要約:
– この論文は、大規模言語モデル(LLMs)が様々な言語関連のタスクにゼロショットで汎用性の高い能力を示していることに注目し、情報検索(IR)における関連性ランキングの探索に焦点を当てる。
– 実験の結果、適切に指導されたChatGPTやGPT-4は、人工知能による学習手法に比べて、人気のあるIRのベンチマークにおいて競合力があり、時には優れた結果を示すことが判明した。
– 特に、GPT-4は、TRECデータセットにおいてmonoT5-3Bに平均2.7 nDCG、BEIRデータセットにおいて平均2.3 nDCG、そして10の低資源言語Mr.TyDiにおいて平均2.7 nDCGで、完全にファインチューニングされたmonoT5-3Bよりも優れた結果を示した。
– その後、ChatGPTのランキング能力を専門的なモデルに抽出する可能性について掘り下げる。
– ChatGPTで生成された10Kのデータで訓練された狭い専門モデルは、BEIRにおいて400Kの注釈付きMS MARCOデータで訓練されたmonoT5よりも優れた結果を示すことができる。
– 論文で使用したコードは、www.github.com/sunnweiwei/RankGPTで公開されている。

要約(オリジナル)

Large Language Models (LLMs) have demonstrated a remarkable ability to generalize zero-shot to various language-related tasks. This paper focuses on the study of exploring generative LLMs such as ChatGPT and GPT-4 for relevance ranking in Information Retrieval (IR). Surprisingly, our experiments reveal that properly instructed ChatGPT and GPT-4 can deliver competitive, even superior results than supervised methods on popular IR benchmarks. Notably, GPT-4 outperforms the fully fine-tuned monoT5-3B on MS MARCO by an average of 2.7 nDCG on TREC datasets, an average of 2.3 nDCG on eight BEIR datasets, and an average of 2.7 nDCG on ten low-resource languages Mr.TyDi. Subsequently, we delve into the potential for distilling the ranking capabilities of ChatGPT into a specialized model. Our small specialized model that trained on 10K ChatGPT generated data outperforms monoT5 trained on 400K annotated MS MARCO data on BEIR. The code to reproduce our results is available at www.github.com/sunnweiwei/RankGPT

arxiv情報

著者 Weiwei Sun,Lingyong Yan,Xinyu Ma,Pengjie Ren,Dawei Yin,Zhaochun Ren
発行日 2023-04-19 10:16:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CL, cs.IR パーマリンク