How do Large Language Models Understand Relevance? A Mechanistic Interpretability Perspective

要約

最近の研究では、大規模な言語モデル(LLM)が関連性を評価し、ドキュメントランキングや関連性の判断生成などの情報検索(IR)タスクをサポートできることが示されています。
ただし、既製のLLMが関連性を理解し、運用する内部メカニズムは、ほとんど説明されていません。
この論文では、さまざまなLLMモジュールが、機械的解釈可能性のレンズを通じて関連性の判断にどのように寄与するかを体系的に調査します。
アクティベーションパッチング手法を使用して、さまざまなモデルコンポーネントの役割を分析し、ポイントワイズまたはペアワイズの関連性判断を生成する際の多段階の進歩的なプロセスを特定します。
具体的には、LLMSは最初に初期層のクエリとドキュメント情報を抽出し、次に中間層の指示に従って関連性情報を処理し、最後に後のレイヤーで特定の注意ヘッドを利用して、必要な形式で関連性の判断を生成します。
私たちの調査結果は、LLMSの関連性評価の根底にあるメカニズムに関する洞察を提供し、IRタスクのLLMを活用する将来の研究に貴重な意味を提供します。

要約(オリジナル)

Recent studies have shown that large language models (LLMs) can assess relevance and support information retrieval (IR) tasks such as document ranking and relevance judgment generation. However, the internal mechanisms by which off-the-shelf LLMs understand and operationalize relevance remain largely unexplored. In this paper, we systematically investigate how different LLM modules contribute to relevance judgment through the lens of mechanistic interpretability. Using activation patching techniques, we analyze the roles of various model components and identify a multi-stage, progressive process in generating either pointwise or pairwise relevance judgment. Specifically, LLMs first extract query and document information in the early layers, then process relevance information according to instructions in the middle layers, and finally utilize specific attention heads in the later layers to generate relevance judgments in the required format. Our findings provide insights into the mechanisms underlying relevance assessment in LLMs, offering valuable implications for future research on leveraging LLMs for IR tasks.

arxiv情報

著者 Qi Liu,Jiaxin Mao,Ji-Rong Wen
発行日 2025-04-10 16:14:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.IR, cs.LG パーマリンク