Merging Clinical Knowledge into Large Language Models for Medical Research and Applications: A Survey

要約

臨床知識とは、疾患の原因、予後、診断、治療に関する研究から学んだ情報の収集です。
このタイプの知識は、硬化性のパフォーマンスを改善し、身体の健康を促進することができます。
大規模な言語モデル(LLMS)の出現により、アカデミックメディカルAIシステムを実際の医療シナリオに適用することを目的とした医療人工知能(Medical AI)は、新しい開発時代に入り、DoctogptやPangu-Drugなどの優れた作品を学業および産業研究から生み出しました。
ただし、この分野には包括的な大要と、学界と産業の医療AIシステムの構築の比較がありません。
したがって、この調査では、臨床データベースの使用、データセット、トレーニングパイプライン、医療知識グラフ、システムアプリケーション、評価システムの統合など、医療AIシステムの建物のパラダイムに焦点を当てています。
この調査が、関連する実践的な研究者が、ヘルスケアのさまざまな分野での学術モデルの現在のパフォーマンスと、これらの科学的成果を実装するための潜在的な問題と将来の方向性を理解するのに役立つことを願っています。

要約(オリジナル)

Clinical knowledge is the collection of information learned from studies on the causes, prognosis, diagnosis, and treatment of diseases. This type of knowledge can improve curing performances, and promote physical health. With the emergence of large language models (LLMs), medical artificial intelligence (medical AI), which aims to apply academic medical AI systems to real-world medical scenarios, has entered a new age of development, resulting in excellent works such as DoctorGPT and Pangu-Drug from academic and industrial researches. However, the field lacks a comprehensive compendium and comparison of building medical AI systems from academia and industry. Therefore, this survey focuses on the building paradigms of medical AI systems including the use of clinical databases, datasets, training pipelines, integrating medical knowledge graphs, system applications, and evaluation systems. We hope that this survey can help relevant practical researchers understand the current performance of academic models in various fields of healthcare, as well as the potential problems and future directions for implementing these scientific achievements.

arxiv情報

著者 Qiyuan Li,Haijiang Liu,Caicai Guo,Deyu Chen,Meng Wang,Feng Gao,Jinguang Gu
発行日 2025-02-28 12:00:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | Merging Clinical Knowledge into Large Language Models for Medical Research and Applications: A Survey はコメントを受け付けていません

Capability Localization: Capabilities Can be Localized rather than Individual Knowledge

要約

大規模な言語モデルは、自然言語処理に関連するタスクで優れたパフォーマンスを達成していますが、モデルパラメーターがパフォーマンスの改善にどのように影響するかはまだ不明です。
以前の研究では、個々の知識がローカルパラメーターに保存されており、個々の知識のストレージ形式は分散パラメーター、パラメーターレイヤー、またはパラメーターチェーンであり、統一されていないと想定していました。
忠実度と信頼性評価実験を通じて、個々の知識をローカライズできないことがわかりました。
その後、デカップリング実験のためのデータセットを構築し、データの共通性をローカライズする可能性を発見しました。
この現象をさらに明らかにするために、このペーパーでは、共通性ニューロンを正常に位置付け、GSM8Kデータセットで96.42%のニューロンオーバーラップレートを達成する共通性ニューロン局在(CNL)メソッドを提案します。
最後に、相互データ実験を通じて、共通性ニューロンはパフォーマンスを向上させる能力を備えた能力ニューロンのコレクションであることを実証しました。
私たちのコードは、https://github.com/nlpkeg/capability-neuron-localizationで入手できます。

要約(オリジナル)

Large scale language models have achieved superior performance in tasks related to natural language processing, however, it is still unclear how model parameters affect performance improvement. Previous studies assumed that individual knowledge is stored in local parameters, and the storage form of individual knowledge is dispersed parameters, parameter layers, or parameter chains, which are not unified. We found through fidelity and reliability evaluation experiments that individual knowledge cannot be localized. Afterwards, we constructed a dataset for decoupling experiments and discovered the potential for localizing data commonalities. To further reveal this phenomenon, this paper proposes a Commonality Neuron Localization (CNL) method, which successfully locates commonality neurons and achieves a neuron overlap rate of 96.42% on the GSM8K dataset. Finally, we have demonstrated through cross data experiments that commonality neurons are a collection of capability neurons that possess the capability to enhance performance. Our code is available at https://github.com/nlpkeg/Capability-Neuron-Localization.

arxiv情報

著者 Xiusheng Huang,Jiaxiang Liu,Yequan Wang,Jun Zhao,Kang Liu
発行日 2025-02-28 12:22:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Capability Localization: Capabilities Can be Localized rather than Individual Knowledge はコメントを受け付けていません

ForecastBench: A Dynamic Benchmark of AI Forecasting Capabilities

要約

将来のイベントの予測は、情報に基づいた意思決定への重要な入力です。
機械学習(ML)システムには、予測を大規模に提供する可能性がありますが、標準化された予測質問セットでMLシステムの精度を評価するためのフレームワークはありません。
このギャップに対処するために、ForeCastBench:ML Systemsの精度を自動的に生成および定期的に更新された1,000の予測質問で評価する動的ベンチマークを紹介します。
データの漏れの可能性を回避するために、Forecastbenchは、提出時に既知の答えがない将来のイベントに関する質問のみで構成されています。
ベンチマークからの質問のランダムなサブセット($ n = 200 $)で、専門家(人間)の予測者、一般の人々、およびLLMからの予測を収集することにより、現在のMLシステムの機能を定量化します。
LLMは多くのベンチマークで超人間のパフォーマンスを達成していますが、ここではあまりパフォーマンスがありません。専門家の予測者は、トップパフォーマンスのLLM($ P $ -Value $ <0.001 $)よりも優れています。 www.forecastbench.orgのパブリックリーダーボードにシステムと人間のスコアを表示します。

要約(オリジナル)

Forecasts of future events are essential inputs into informed decision-making. Machine learning (ML) systems have the potential to deliver forecasts at scale, but there is no framework for evaluating the accuracy of ML systems on a standardized set of forecasting questions. To address this gap, we introduce ForecastBench: a dynamic benchmark that evaluates the accuracy of ML systems on an automatically generated and regularly updated set of 1,000 forecasting questions. To avoid any possibility of data leakage, ForecastBench is comprised solely of questions about future events that have no known answer at the time of submission. We quantify the capabilities of current ML systems by collecting forecasts from expert (human) forecasters, the general public, and LLMs on a random subset of questions from the benchmark ($N=200$). While LLMs have achieved super-human performance on many benchmarks, they perform less well here: expert forecasters outperform the top-performing LLM ($p$-value $<0.001$). We display system and human scores in a public leaderboard at www.forecastbench.org.

arxiv情報

著者 Ezra Karger,Houtan Bastani,Chen Yueh-Han,Zachary Jacobs,Danny Halawi,Fred Zhang,Philip E. Tetlock
発行日 2025-02-28 12:35:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | ForecastBench: A Dynamic Benchmark of AI Forecasting Capabilities はコメントを受け付けていません

DropBP: Accelerating Fine-Tuning of Large Language Models by Dropping Backward Propagation

要約

大規模な言語モデル(LLM)は、さまざまなドメインで大きな成功を収めています。
ただし、これらのLLMのトレーニングには、通常、前方および後方の伝播の両方で、実質的なメモリと計算コストが含まれます。
パラメーター効率の高い微調整(PEFT)は、パラメーターに関連付けられたトレーニングメモリを大幅に減らしますが、重要な計算コストとアクティベーションメモリに対処しません。
この論文では、精度を維持しながら計算コストとアクティベーションメモリを削減するために設計された新しいアプローチである、逆方向の伝播(DROPBP)のドロップを提案します。
DROPBPは、後方伝播中に層をランダムにドロップします。これは、非繰り返しの層と残留接続によって生成される浅いサブモジュールのトレーニングと本質的に同等です。
さらに、DROPBPは各レイヤーの感度を計算して適切なドロップレートを割り当て、それによりトレーニングプロセスを安定させます。
DROPBPは、完全な微調整に適用できるだけでなく、後方伝播中に層を落とすことにより、すべてのタイプのPEFTと直交することもできます。
具体的には、DROPBPは、ベースラインに匹敵する精度でトレーニング時間を44%短縮し、同じ困惑への収束を1.5倍に加速させ、単一のNVIDIA-A100 GPUで6.2倍大きいシーケンス長でトレーニングを可能にします。
さらに、当社のDROPBPは、NVIDIA A100 GPUで79%、Intel Gaudi2 HPUで117%のスループット増加を可能にしました。
このコードは、https://github.com/woosunghyeon/dropbpで入手できます。

要約(オリジナル)

Large language models (LLMs) have achieved significant success across various domains. However, training these LLMs typically involves substantial memory and computational costs during both forward and backward propagation. While parameter-efficient fine-tuning (PEFT) considerably reduces the training memory associated with parameters, it does not address the significant computational costs and activation memory. In this paper, we propose Dropping Backward Propagation (DropBP), a novel approach designed to reduce computational costs and activation memory while maintaining accuracy. DropBP randomly drops layers during backward propagation, which is essentially equivalent to training shallow submodules generated by undropped layers and residual connections. Additionally, DropBP calculates the sensitivity of each layer to assign an appropriate drop rate, thereby stabilizing the training process. DropBP is not only applicable to full fine-tuning but can also be orthogonally integrated with all types of PEFT by dropping layers during backward propagation. Specifically, DropBP can reduce training time by 44% with comparable accuracy to the baseline, accelerate convergence to the same perplexity by 1.5x, and enable training with a sequence length 6.2x larger on a single NVIDIA-A100 GPU. Furthermore, our DropBP enabled a throughput increase of 79% on a NVIDIA A100 GPU and 117% on an Intel Gaudi2 HPU. The code is available at https://github.com/WooSunghyeon/dropbp.

arxiv情報

著者 Sunghyeon Woo,Baeseong Park,Byeongwook Kim,Minjung Jo,Se Jung Kwon,Dongsuk Jeon,Dongsoo Lee
発行日 2025-02-28 12:53:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG | DropBP: Accelerating Fine-Tuning of Large Language Models by Dropping Backward Propagation はコメントを受け付けていません

MiCEval: Unveiling Multimodal Chain of Thought’s Quality via Image Description and Reasoning Steps

要約

Multimodal Chain of Thound(MCOT)は、複雑な推論タスクの範囲にわたるマルチモーダル大手言語モデル(MLLM)のパフォーマンスを改善するための一般的なプロンプト戦略です。
その人気にもかかわらず、MCOTの推論ステップの品質を評価するための自動化された方法が顕著に欠けています。
このギャップに対処するために、記述と各推論ステップの両方の品質を評価することにより、推論チェーンの正確性を評価するために設計されたフレームワークであるマルチモーダルチェーンオブサボート評価(Micalval)を提案します。
説明コンポーネントの評価は、画像の説明の精度に焦点を当てていますが、推論ステップは、前のステップに基づいて条件付きで生成されるため、各ステップの品質を評価します。
Micevalは、正確性、関連性、および情報性に応じて各ステップを評価する注釈を備えた微粒データセットの上に構築されています。
4つの最先端のMLLMに関する広範な実験は、Micevalを使用した段階的評価が、Cosineの類似性または微調整アプローチに基づいた既存の方法と比較して、人間の判断とより密接に整合することを示しています。
Micevalデータセットとコードは、https://github.com/alenai97/micevalにあります。

要約(オリジナル)

Multimodal Chain of Thought (MCoT) is a popular prompting strategy for improving the performance of multimodal large language models (MLLMs) across a range of complex reasoning tasks. Despite its popularity, there is a notable absence of automated methods for evaluating the quality of reasoning steps in MCoT. To address this gap, we propose Multimodal Chain-of-Thought Evaluation (MiCEval), a framework designed to assess the correctness of reasoning chains by evaluating the quality of both the description and each reasoning step. The evaluation of the description component focuses on the accuracy of the image descriptions, while the reasoning step evaluates the quality of each step as it is conditionally generated based on the preceding steps. MiCEval is built upon a fine-grained dataset with annotations that rate each step according to correctness, relevance, and informativeness. Extensive experiments on four state-of-the-art MLLMs show that step-wise evaluations using MiCEval align more closely with human judgments compared to existing methods based on cosine similarity or fine-tuning approaches. MiCEval datasets and code can be found in https://github.com/alenai97/MiCEval.

arxiv情報

著者 Xiongtao Zhou,Jie He,Lanyu Chen,Jingyu Li,Haojing Chen,Víctor Gutiérrez-Basulto,Jeff Z. Pan,Hanjie Chen
発行日 2025-02-28 12:57:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | MiCEval: Unveiling Multimodal Chain of Thought’s Quality via Image Description and Reasoning Steps はコメントを受け付けていません

Behind the Tip of Efficiency: Uncovering the Submerged Threats of Jailbreak Attacks in Small Language Models

要約

小言語モデル(SLM)は、高効率と低い計算コストのために、エッジデバイスの展開でますます顕著になっています。
研究者は、革新的なトレーニング戦略とモデル圧縮技術を通じてSLMの能力を進め続けていますが、SLMのセキュリティリスクは、このギャップを埋めるために、大規模な言語モデル(LLM)と比較してかなり注目されていません。
私たちの実験は、ほとんどのSLMが既存の脱獄攻撃の影響を非常に受けやすいことを示していますが、それらのいくつかは直接的な有害プロンプトに対して脆弱です。安全性の懸念に対処するために、いくつかの代表的な防衛方法を評価し、SLMのセキュリティを強化する効果を実証します。
さらに、アーキテクチャの圧縮、量子化、知識の蒸留などを含むさまざまなSLM技術によって引き起こされる潜在的なセキュリティ劣化を分析します。
私たちの研究は、SLMSのセキュリティの課題を強調し、より堅牢で安全なSLMを開発する将来の仕事に貴重な洞察を提供できると予想しています。

要約(オリジナル)

Small language models (SLMs) have become increasingly prominent in the deployment on edge devices due to their high efficiency and low computational cost. While researchers continue to advance the capabilities of SLMs through innovative training strategies and model compression techniques, the security risks of SLMs have received considerably less attention compared to large language models (LLMs).To fill this gap, we provide a comprehensive empirical study to evaluate the security performance of 13 state-of-the-art SLMs under various jailbreak attacks. Our experiments demonstrate that most SLMs are quite susceptible to existing jailbreak attacks, while some of them are even vulnerable to direct harmful prompts.To address the safety concerns, we evaluate several representative defense methods and demonstrate their effectiveness in enhancing the security of SLMs. We further analyze the potential security degradation caused by different SLM techniques including architecture compression, quantization, knowledge distillation, and so on. We expect that our research can highlight the security challenges of SLMs and provide valuable insights to future work in developing more robust and secure SLMs.

arxiv情報

著者 Sibo Yi,Tianshuo Cong,Xinlei He,Qi Li,Jiaxing Song
発行日 2025-02-28 12:59:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CR | Behind the Tip of Efficiency: Uncovering the Submerged Threats of Jailbreak Attacks in Small Language Models はコメントを受け付けていません

PersuasiveToM: A Benchmark for Evaluating Machine Theory of Mind in Persuasive Dialogues

要約

自分自身と他者の精神状態を理解し、予測する能力は、心の理論(TOM)として知られており、効果的な社会的相互作用に不可欠です。
大規模な言語モデル(LLM)がTOMの形を示すかどうかを評価するために、最近の研究が登場しています。
最近の研究ではLLMSでTOMを評価していますが、既存のベンチマークは主に肉体的認識に焦点を当て、合成物語や会話におけるサリー・アンテのテストによって導かれ、現実の社会的相互作用における精神状態の複雑な心理的活動を捉えることができません。
このギャップを軽減するために、説得力のある対話でLLMのTOM能力を評価するために設計されたベンチマークであるPersuasivetomを提案します。
私たちのフレームワークでは、2つのカテゴリの質問を紹介します。(1)TOMの推論、進化する精神状態(例えば、説得力の欲求の変化)を追跡するLLMの能力を評価すること、および(2)TOMアプリケーション、LLMが推測された精神状態を利用して効果的な説得戦略を選択し(例えば、希少性を強調)、有効性を評価できるかどうかを評価します。
8つの最先端のLLMにわたる実験は、モデルが複数の質問に優れている一方で、精神状態のダイナミクスとシフトを追跡し、対話全体の精神状態を理解する必要がある質問に答えるのに苦労することを明らかにしています。
PersuasiveTomでの私たちの目的は、複雑な心理的活動により重点を置いて、LLMSのTOM推論能力の効果的な評価を可能にすることです。
私たちのコードは、https://github.com/yu-fangxu/persuasivetomで入手できます。

要約(オリジナル)

The ability to understand and predict the mental states of oneself and others, known as the Theory of Mind (ToM), is crucial for effective social interactions. Recent research has emerged to evaluate whether Large Language Models (LLMs) exhibit a form of ToM. Although recent studies have evaluated ToM in LLMs, existing benchmarks focus predominantly on physical perception with principles guided by the Sally-Anne test in synthetic stories and conversations, failing to capture the complex psychological activities of mental states in real-life social interactions. To mitigate this gap, we propose PersuasiveToM, a benchmark designed to evaluate the ToM abilities of LLMs in persuasive dialogues. Our framework introduces two categories of questions: (1) ToM Reasoning, assessing the capacity of LLMs to track evolving mental states (e.g., desire shifts in persuadees), and (2) ToM Application, evaluating whether LLMs can take advantage of inferred mental states to select effective persuasion strategies (e.g., emphasize rarity) and evaluate the effectiveness of persuasion strategies. Experiments across eight state-of-the-art LLMs reveal that while models excel on multiple questions, they struggle to answer questions that need tracking the dynamics and shifts of mental states and understanding the mental states in the whole dialogue comprehensively. Our aim with PersuasiveToM is to allow an effective evaluation of the ToM reasoning ability of LLMs with more focus on complex psychological activities. Our code is available at https://github.com/Yu-Fangxu/PersuasiveToM.

arxiv情報

著者 Fangxu Yu,Lai Jiang,Shenyi Huang,Zhen Wu,Xinyu Dai
発行日 2025-02-28 13:04:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | PersuasiveToM: A Benchmark for Evaluating Machine Theory of Mind in Persuasive Dialogues はコメントを受け付けていません

LLM2: Let Large Language Models Harness System 2 Reasoning

要約

大規模な言語モデル(LLM)は、無数のタスクにわたって印象的な機能を示していますが、時折望ましくない出力を生成します。
これらの制限は、望ましい結果と望ましくない結果を区別するためのメカニズムが本質的に欠けているLLMSの基本的な自己回帰アーキテクチャに根ざしていると仮定します。
人間の認知のデュアルプロセス理論からインスピレーションを得て、LLM2(システム1)とプロセスベースの検証(システム2)を組み合わせた新しいフレームワークであるLLM2を紹介します。
LLM2内では、LLMはもっともらしい候補を生成する責任がありますが、検証者は、望ましい出力と望ましくない出力を区別するためのタイムリーなプロセスベースのフィードバックを提供します。
検証器は、トークン品質探査戦略を通じて生成された合成プロセススーパービジョンデータのペアワイズ比較損失でトレーニングされます。
数学的推論ベンチマークに関する経験的結果は、GSM8KのLLAMA3-1Bの50.3から57.8(+7.5)の精度強化によって例示されるLLM2の有効性を実証します。
さらに、自己整合性と組み合わせると、LLM2は追加の改善を達成し、56.2から70.2(+14.0)に20の精度を高めます。

要約(オリジナル)

Large language models (LLMs) have exhibited impressive capabilities across a myriad of tasks, yet they occasionally yield undesirable outputs. We posit that these limitations are rooted in the foundational autoregressive architecture of LLMs, which inherently lacks mechanisms for differentiating between desirable and undesirable results. Drawing inspiration from the dual-process theory of human cognition, we introduce LLM2, a novel framework that combines an LLM (System 1) with a process-based verifier (System 2). Within LLM2, the LLM is responsible for generating plausible candidates, while the verifier provides timely process-based feedback to distinguish desirable and undesirable outputs. The verifier is trained with a pairwise comparison loss on synthetic process-supervision data generated through our token quality exploration strategy. Empirical results on mathematical reasoning benchmarks substantiate the efficacy of LLM2, exemplified by an accuracy enhancement from 50.3 to 57.8 (+7.5) for Llama3-1B on GSM8K. Furthermore, when combined with self-consistency, LLM2 achieves additional improvements, boosting major@20 accuracy from 56.2 to 70.2 (+14.0).

arxiv情報

著者 Cheng Yang,Chufan Shi,Siheng Li,Bo Shui,Yujiu Yang,Wai Lam
発行日 2025-02-28 13:06:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | LLM2: Let Large Language Models Harness System 2 Reasoning はコメントを受け付けていません

Extending Dense Passage Retrieval with Temporal Information

要約

時間的認識は、多くの情報検索タスク、特にドキュメントの関連性がクエリの時間コンテキストとの整合に依存するシナリオで重要です。
BM25や密度の高いパッセージ検索(DPR)などの従来の検索方法は、語彙的および意味的な関連性のキャプチャに優れていますが、時間に敏感なクエリに対処するのに不足しています。
このギャップを埋めるために、クエリタイムスタンプとドキュメント日付を表現空間に組み込むことにより、明示的な時間信号を統合する時間的検索モデルを導入します。
私たちのアプローチにより、検索されたパッセージは局所的に関連するだけでなく、ユーザーの意図と一時的に整合することが保証されます。
2つの大規模なベンチマークデータセット、ArchivelqaとChroniclingAmericaqaでアプローチを評価し、標準の検索ベースラインよりも大きなパフォーマンスの向上を達成します。
特に、私たちのモデルは、ArchivalqaでTop-1検索の精度を6.63%、NDCG@10 x 3.79%改善し、ChroniclingAmericaqaのNDCG@10でTop-1検索の精度で9.56%、4.68%をもたらします。
さらに、トレーニング中に時間に敏感なネガティブサンプリング戦略を紹介します。これは、トレーニング中に時間的に関連する無関係なドキュメントを区別するモデルの能力を改善します。
私たちの調査結果は、検索システムで明示的に時間をモデル化することの重要性を強調し、一時的に接地されたクエリを処理するための新しい基準を設定します。

要約(オリジナル)

Temporal awareness is crucial in many information retrieval tasks, particularly in scenarios where the relevance of documents depends on their alignment with the query’s temporal context. Traditional retrieval methods such as BM25 and Dense Passage Retrieval (DPR) excel at capturing lexical and semantic relevance but fall short in addressing time-sensitive queries. To bridge this gap, we introduce the temporal retrieval model that integrates explicit temporal signals by incorporating query timestamps and document dates into the representation space. Our approach ensures that retrieved passages are not only topically relevant but also temporally aligned with user intent. We evaluate our approach on two large-scale benchmark datasets, ArchivalQA and ChroniclingAmericaQA, achieving substantial performance gains over standard retrieval baselines. In particular, our model improves Top-1 retrieval accuracy by 6.63% and NDCG@10 by 3.79% on ArchivalQA, while yielding a 9.56% boost in Top-1 retrieval accuracy and 4.68% in NDCG@10 on ChroniclingAmericaQA. Additionally, we introduce a time-sensitive negative sampling strategy, which refines the model’s ability to distinguish between temporally relevant and irrelevant documents during training. Our findings highlight the importance of explicitly modeling time in retrieval systems and set a new standard for handling temporally grounded queries.

arxiv情報

著者 Abdelrahman Abdallah,Bhawna Piryani,Jonas Wallat,Avishek Anand,Adam Jatowt
発行日 2025-02-28 13:06:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.IR | Extending Dense Passage Retrieval with Temporal Information はコメントを受け付けていません

Training-Free Exponential Context Extension via Cascading KV Cache

要約

トランスのコンテキストウィンドウは、アクティブメモリ用の前のトークンを保存するため、少数のショット学習や条件付き生成などのタスクに不可欠です。
ただし、コンテキストの長さが増加するにつれて、計算コストが二次的に増加し、実際の長いシーケンスシナリオでの大規模な言語モデル(LLM)の展開を妨げます。
いくつかの最近のキー価値キャッシュ(KVキャッシュ)メソッドは線形推論の複雑さを提供しますが、保存されたコンテキストを素朴に管理し、トークンを早期に排除し、貴重な情報を失います。
さらに、それらは最適化されたPrefill/Prompt Stage戦略を欠いており、現実的なコンテキストサイズの2次の注意よりも高いレイテンシをもたらします。
これに応じて、カスケードサブキャッシュバッファーを活用して最も関連性の高いトークンを選択的に保持する新しいメカニズムを導入し、モデルがキャッシュサイズを増やすことなくより長いコンテキスト履歴を維持できるようにします。
私たちのアプローチは、ストリーミングの困惑、質問の回答、本の要約、パスキー検索など、主要なベンチマーク全体の線形キャッシュベースラインを上回り、キャッシュサイズの65Kの4倍後の1Mトークンでより良い検索精度を保持します。
さらに、1Mトークンでのフラッシュの注意と比較した場合、私たちの方法は、Prefill段階のレイテンシを6.8倍に減らします。
これらのイノベーションは、LLMの計算効率を高めるだけでなく、リソース制約の環境での効果的な展開への道を開いて、大幅に低下した大規模でリアルタイムのアプリケーションを可能にします。

要約(オリジナル)

The transformer’s context window is vital for tasks such as few-shot learning and conditional generation as it preserves previous tokens for active memory. However, as the context lengths increase, the computational costs grow quadratically, hindering the deployment of large language models (LLMs) in real-world, long sequence scenarios. Although some recent key-value caching (KV Cache) methods offer linear inference complexity, they naively manage the stored context, prematurely evicting tokens and losing valuable information. Moreover, they lack an optimized prefill/prompt stage strategy, resulting in higher latency than even quadratic attention for realistic context sizes. In response, we introduce a novel mechanism that leverages cascading sub-cache buffers to selectively retain the most relevant tokens, enabling the model to maintain longer context histories without increasing the cache size. Our approach outperforms linear caching baselines across key benchmarks, including streaming perplexity, question answering, book summarization, and passkey retrieval, where it retains better retrieval accuracy at 1M tokens after four doublings of the cache size of 65K. Additionally, our method reduces prefill stage latency by a factor of 6.8 when compared to flash attention on 1M tokens. These innovations not only enhance the computational efficiency of LLMs but also pave the way for their effective deployment in resource-constrained environments, enabling large-scale, real-time applications with significantly reduced latency.

arxiv情報

著者 Jeffrey Willette,Heejun Lee,Youngwan Lee,Myeongjae Jeon,Sung Ju Hwang
発行日 2025-02-28 13:08:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | Training-Free Exponential Context Extension via Cascading KV Cache はコメントを受け付けていません