TracLLM: A Generic Framework for Attributing Long Context LLMs

要約

長いコンテキストの大規模な言語モデル(LLM)は、RAG、エージェント、広範なLLM統合アプリケーションなどの多くの実際のアプリケーションに展開されています。
指示と長いコンテキスト(ドキュメント、PDFファイル、Webページなど)を考えると、LLMの長いコンテキストLLMは、提供されたコンテキストに基づいた出力を生成し、より正確で最新の、検証可能な出力を提供しながら、幻覚とサポートされていないクレームを減らします。
これは研究の質問を提起します。LLMによって生成された出力に最も貢献する、または責任を負うコンテキストで、テキスト(例:文、通路、または段落)をどのように特定する方法を特定しますか?
コンテキストトレースバックと呼ばれるこのプロセスには、1)LLMベースのシステムのデバッグ、2)攻撃後の攻撃後の法医学分析(例えば、迅速なインジェクション攻撃、知識腐敗攻撃)を実施するなど、さまざまな現実世界のアプリケーションがあります。
長いコンテキストLLMのコンテキストトレースバックに適用すると、Shapleyなどの既存の機能の帰属方法は、最適なパフォーマンスを持ち、/または大きな計算コストが発生します。
この作業では、長いコンテキストLLMに合わせた最初の汎用コンテキストトレースバックフレームワークであるTracllmを開発します。
当社のフレームワークは、既存の機能の帰属方法の有効性と効率を改善できます。
効率を向上させるために、Tracllmに情報に基づいた検索ベースのアルゴリズムを開発します。
また、Tracllmの精度を向上させるために、貢献スコアアンサンブル/除去技術も開発しています。
私たちの評価結果は、TracllmがLLMの出力につながる長いコンテキストでテキストを効果的に識別できることを示しています。
私たちのコードとデータは、https://github.com/wang-yanting/tracllmにあります。

要約(オリジナル)

Long context large language models (LLMs) are deployed in many real-world applications such as RAG, agent, and broad LLM-integrated applications. Given an instruction and a long context (e.g., documents, PDF files, webpages), a long context LLM can generate an output grounded in the provided context, aiming to provide more accurate, up-to-date, and verifiable outputs while reducing hallucinations and unsupported claims. This raises a research question: how to pinpoint the texts (e.g., sentences, passages, or paragraphs) in the context that contribute most to or are responsible for the generated output by an LLM? This process, which we call context traceback, has various real-world applications, such as 1) debugging LLM-based systems, 2) conducting post-attack forensic analysis for attacks (e.g., prompt injection attack, knowledge corruption attacks) to an LLM, and 3) highlighting knowledge sources to enhance the trust of users towards outputs generated by LLMs. When applied to context traceback for long context LLMs, existing feature attribution methods such as Shapley have sub-optimal performance and/or incur a large computational cost. In this work, we develop TracLLM, the first generic context traceback framework tailored to long context LLMs. Our framework can improve the effectiveness and efficiency of existing feature attribution methods. To improve the efficiency, we develop an informed search based algorithm in TracLLM. We also develop contribution score ensemble/denoising techniques to improve the accuracy of TracLLM. Our evaluation results show TracLLM can effectively identify texts in a long context that lead to the output of an LLM. Our code and data are at: https://github.com/Wang-Yanting/TracLLM.

arxiv情報

著者 Yanting Wang,Wei Zou,Runpeng Geng,Jinyuan Jia
発行日 2025-06-04 17:48:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CR, cs.LG パーマリンク