FRAG: Frame Selection Augmented Generation for Long Video and Long Document Understanding

要約

大規模なマルチモーダルモデル(LMM)では印象的な進歩がありました。
最近の作品は、これらのモデルをマルチページドキュメントや長いビデオなど、長い入力に拡張しています。
ただし、これらの長いコンテキストモデルのモデルサイズとパフォーマンスは、トレーニングと推論の両方で計算コストのために依然として制限されています。
この作業では、直交方向を探索し、長いコンテキストLMMを使用せずに長い入力を処理します。
フレーム選択拡張生成(frag)を提案します。ここでは、モデルが最初に入力内で関連するフレームを選択し、次に選択したフレームに基づいて最終出力のみを生成します。
選択プロセスのコアは、各フレームを個別にスコアリングすることによって行われますが、これには長いコンテキスト処理は必要ありません。
最高のスコアのフレームは、単純なTOP-K選択によって選択されます。
このイライラするほどシンプルなフレームワークは、微調整せずに既存のLMMを使用して、長いビデオとマルチページドキュメントの両方に適用できることを示します。
実験では、Llava-OnevisionとInternVl2の2つのモデルを検討し、断片がパフォーマンスを一貫して改善し、長いビデオと長い文書の理解の両方で最先端のパフォーマンスを達成することを示しています。
ビデオの場合、FragはMLVUでInternVL2-76Bを5.8%、ビデオMMEで3.7%改善します。
ドキュメントの場合、fragは、長い文書の理解に特化した最近のLMMと比較して、MP-DOCVQAの20%以上の改善を達成しています。
コードはhttps://github.com/nvlabs/fragで入手できます

要約(オリジナル)

There has been impressive progress in Large Multimodal Models (LMMs). Recent works extend these models to long inputs, including multi-page documents and long videos. However, the model size and performance of these long context models are still limited due to the computational cost in both training and inference. In this work, we explore an orthogonal direction and process long inputs without long context LMMs. We propose Frame Selection Augmented Generation (FRAG), where the model first selects relevant frames within the input, and then only generates the final outputs based on the selected frames. The core of the selection process is done by scoring each frame independently, which does not require long context processing. The frames with the highest scores are then selected by a simple Top-K selection. We show that this frustratingly simple framework is applicable to both long videos and multi-page documents using existing LMMs without any fine-tuning. We consider two models, LLaVA-OneVision and InternVL2, in our experiments and show that FRAG consistently improves the performance and achieves state-of-the-art performances for both long video and long document understanding. For videos, FRAG substantially improves InternVL2-76B by 5.8% on MLVU and 3.7% on Video-MME. For documents, FRAG achieves over 20% improvements on MP-DocVQA compared with recent LMMs specialized in long document understanding. Code is available at: https://github.com/NVlabs/FRAG

arxiv情報

著者 De-An Huang,Subhashree Radhakrishnan,Zhiding Yu,Jan Kautz
発行日 2025-04-24 11:19:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | FRAG: Frame Selection Augmented Generation for Long Video and Long Document Understanding はコメントを受け付けていません

HMI: Hierarchical Knowledge Management for Efficient Multi-Tenant Inference in Pretrained Language Models

要約

多くの場合、専用のハードウェアを必要とする事前処理言語モデル(PLMS)の重要な計算需要は、特にマルチテナント環境で効率的に提供する上で大きな課題を提示します。
これに対処するために、異なるPLMSリソース効率を持つテナントを管理するように設計された階層的ナレッジマネジメントベースのマルチテナント推論システムであるHMIを紹介します。
私たちのアプローチは3つあります。まず、PLMの知識を一般、ドメイン固有、およびタスク固有に分類します。
さまざまなモデルレイヤー間の知識習得に関する洞察を活用して、知識をさまざまなレベルで抽出および保存することにより、階層PLM(HPLMS)を構築し、テナントあたりのGPUメモリ使用量を大幅に削減します。
第二に、HMIのさまざまなテナントによって生成されたHPLMの階層的な知識管理を確立します。
頻度に基づいてドメイン固有の知識ツリーを構築および更新することにより、許容可能なストレージの増加でドメイン固有の知識を管理します。
パラメータースワッピングを介して、限られたGPUメモリ内でタスク固有の知識を管理します。
最後に、リソースの利用と推論のスループットを強化するためのシステムの最適化を提案します。
これらには、CPUとI/O操作がGPU計算とオーバーラップするための階層的な知識を介した微細に粒のパイプライニング、およびバッチ付きマトリックス乗算で並列実装を最適化することが含まれます。
私たちの実験結果は、提案されたHMIが単一のGPUで最大10,000 HPLM(HbertsおよびHGPTS)を効率的に提供できることを示しています。

要約(オリジナル)

The significant computational demands of pretrained language models (PLMs), which often require dedicated hardware, present a substantial challenge in serving them efficiently, especially in multi-tenant environments. To address this, we introduce HMI, a Hierarchical knowledge management-based Multi-tenant Inference system, designed to manage tenants with distinct PLMs resource-efficiently. Our approach is three-fold: Firstly, we categorize PLM knowledge into general, domain-specific, and task-specific. Leveraging insights on knowledge acquisition across different model layers, we construct hierarchical PLMs (hPLMs) by extracting and storing knowledge at different levels, significantly reducing GPU memory usage per tenant. Secondly, we establish hierarchical knowledge management for hPLMs generated by various tenants in HMI. We manage domain-specific knowledge with acceptable storage increases by constructing and updating domain-specific knowledge trees based on frequency. We manage task-specific knowledge within limited GPU memory through parameter swapping. Finally, we propose system optimizations to enhance resource utilization and inference throughput. These include fine-grained pipelining via hierarchical knowledge prefetching to overlap CPU and I/O operations with GPU computations, and optimizing parallel implementations with batched matrix multiplications. Our experimental results demonstrate that the proposed HMI can efficiently serve up to 10,000 hPLMs (hBERTs and hGPTs) on a single GPU, with only a negligible compromise in accuracy.

arxiv情報

著者 Jun Zhang,Jue Wang,Huan Li,Lidan Shou,Ke Chen,Gang Chen,Qin Xie,Guiming Xie,Xuejian Gong
発行日 2025-04-24 11:28:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | HMI: Hierarchical Knowledge Management for Efficient Multi-Tenant Inference in Pretrained Language Models はコメントを受け付けていません

Evaluating Time Series Models for Urban Wastewater Management: Predictive Performance, Model Complexity and Resilience

要約

気候変動は極端な降雨の頻度を増加させ、都市インフラ、特に下水道システム(CSS)に大きな負担をかけます。
過激なCSSからのオーバーフローは、未処理の廃水を地表水に放出し、環境と公衆衛生のリスクをもたらします。
従来の物理ベースのモデルは効果的ですが、維持するのに費用がかかり、進化するシステムのダイナミクスに適応するのが困難です。
機械学習(ML)アプローチは、適応性を高めるための費用効率の高い代替品を提供します。
都市インフラストラクチャシステムをモデル化するためのMLの可能性を体系的に評価するために、予測パフォーマンス、モデルの複雑さ、および摂動に対する堅牢性に関するCSS時系列予測のニューラルネットワークアーキテクチャを評価するためのプロトコルを提案します。
さらに、都市廃水管理の重要な体制であるため、ピークイベントと重大な変動のモデルパフォーマンスを評価します。
IoTの展開に適した軽量モデルの実現可能性を調査するために、すべての情報にアクセスできるグローバルモデルを比較します。
さらに、ネットワークの停止または都市インフラストラクチャに対する敵対的な攻撃によってもたらされるセキュリティリスクを調査するために、モデルの回復力を評価するエラーモデルを導入します。
私たちの結果は、グローバルモデルがより高い予測パフォーマンスを達成する一方で、ローカルモデルは分散型シナリオで十分な回復力を提供し、都市インフラストラクチャの堅牢なモデリングを確保することを示しています。
さらに、より長いネイティブ予測視野を持つモデルは、データの摂動に対してより大きな堅牢性を示します。
これらの調査結果は、持続可能な都市廃水管理のための解釈可能で信頼できるMLソリューションの開発に貢献しています。
実装はGitHubリポジトリで利用できます。

要約(オリジナル)

Climate change increases the frequency of extreme rainfall, placing a significant strain on urban infrastructures, especially Combined Sewer Systems (CSS). Overflows from overburdened CSS release untreated wastewater into surface waters, posing environmental and public health risks. Although traditional physics-based models are effective, they are costly to maintain and difficult to adapt to evolving system dynamics. Machine Learning (ML) approaches offer cost-efficient alternatives with greater adaptability. To systematically assess the potential of ML for modeling urban infrastructure systems, we propose a protocol for evaluating Neural Network architectures for CSS time series forecasting with respect to predictive performance, model complexity, and robustness to perturbations. In addition, we assess model performance on peak events and critical fluctuations, as these are the key regimes for urban wastewater management. To investigate the feasibility of lightweight models suitable for IoT deployment, we compare global models, which have access to all information, with local models, which rely solely on nearby sensor readings. Additionally, to explore the security risks posed by network outages or adversarial attacks on urban infrastructure, we introduce error models that assess the resilience of models. Our results demonstrate that while global models achieve higher predictive performance, local models provide sufficient resilience in decentralized scenarios, ensuring robust modeling of urban infrastructure. Furthermore, models with longer native forecast horizons exhibit greater robustness to data perturbations. These findings contribute to the development of interpretable and reliable ML solutions for sustainable urban wastewater management. The implementation is available in our GitHub repository.

arxiv情報

著者 Vipin Singh,Tianheng Ling,Teodor Chiaburu,Felix Biessmann
発行日 2025-04-24 11:52:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | Evaluating Time Series Models for Urban Wastewater Management: Predictive Performance, Model Complexity and Resilience はコメントを受け付けていません

GRANITE : a Byzantine-Resilient Dynamic Gossip Learning Framework

要約

ゴシップ学習(GL)は、ユーザーが隣接する仲間のセットとモデルを繰り返し交換して集約する分散型学習パラダイムです。
最近のGLアプローチは、ランダムピアサンプリング(RPS)プロトコルを使用して構築および維持されている動的通信グラフに依存しています。
グラフダイナミクスのおかげで、GLは非常にまばらなトポロジでも高速な収束を実現できます。
ただし、特にビザンチンノードがRPSプロトコルを攻撃してモデル中毒をスケールアップする場合、特にビザンチン(モデル中毒)攻撃に対するダナミックグラフ上のGLの堅牢性は抑留されていません。
この問題に対処し、ビザンチンのノードの一部の存在下で、まばらで動的なグラフを超える堅牢な学習のフレームワークであるGraniteを導入します。
花崗岩は、2つの主要なコンポーネント(i)歴史を認識しているビザンチンに耐性のあるピアサンプリングプロトコル(HAPS)に依存しています。これは、以前に遭遇した識別子を追跡して、時間の経過に伴う敵対的な影響を軽減し、(ii)適応的な確率的な閾値(APT)を追跡します。
経験的結果は、花崗岩が最大30%のビザンチンノードで収束を維持し、毒モデルの適応フィルタリングを介して学習速度を改善し、現在の理論で決定されるよりも最大9倍のスパースのグラフでこれらの結果を得ることを確認します。

要約(オリジナル)

Gossip Learning (GL) is a decentralized learning paradigm where users iteratively exchange and aggregate models with a small set of neighboring peers. Recent GL approaches rely on dynamic communication graphs built and maintained using Random Peer Sampling (RPS) protocols. Thanks to graph dynamics, GL can achieve fast convergence even over extremely sparse topologies. However, the robustness of GL over dy- namic graphs to Byzantine (model poisoning) attacks remains unaddressed especially when Byzantine nodes attack the RPS protocol to scale up model poisoning. We address this issue by introducing GRANITE, a framework for robust learning over sparse, dynamic graphs in the presence of a fraction of Byzantine nodes. GRANITE relies on two key components (i) a History-aware Byzantine-resilient Peer Sampling protocol (HaPS), which tracks previously encountered identifiers to reduce adversarial influence over time, and (ii) an Adaptive Probabilistic Threshold (APT), which leverages an estimate of Byzantine presence to set aggregation thresholds with formal guarantees. Empirical results confirm that GRANITE maintains convergence with up to 30% Byzantine nodes, improves learning speed via adaptive filtering of poisoned models and obtains these results in up to 9 times sparser graphs than dictated by current theory.

arxiv情報

著者 Yacine Belal,Mohamed Maouche,Sonia Ben Mokhtar,Anthony Simonet-Boulogne
発行日 2025-04-24 12:03:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.DC, cs.LG | GRANITE : a Byzantine-Resilient Dynamic Gossip Learning Framework はコメントを受け付けていません

FPGA-Based Neural Network Accelerators for Space Applications: A Survey

要約

宇宙ミッションはますます野心的になりつつあり、宇宙船のコンピューティングシステムの上に高性能が必要です。
それに応じて、フィールドプログラム可能なゲートアレイ(FPGA)は、柔軟性、費用対効果、放射線耐性の可能性のために大きな関心を集めています。
同時に、ニューラルネットワーク(NNS)は、自律操作、センサーデータ分析、データ圧縮などの宇宙ミッションタスクを実行する能力について認識されています。
この調査は、FPGAベースのNNアクセラレータを宇宙アプリケーションに実装することを目的とした研究者にとって貴重なリソースとして機能します。
既存の文献を分析し、傾向とギャップを特定し、将来の研究の方向性を提案することにより、この作業は、これらの加速器がオンボードコンピューティングシステムを強化する可能性を強調しています。

要約(オリジナル)

Space missions are becoming increasingly ambitious, necessitating high-performance onboard spacecraft computing systems. In response, field-programmable gate arrays (FPGAs) have garnered significant interest due to their flexibility, cost-effectiveness, and radiation tolerance potential. Concurrently, neural networks (NNs) are being recognized for their capability to execute space mission tasks such as autonomous operations, sensor data analysis, and data compression. This survey serves as a valuable resource for researchers aiming to implement FPGA-based NN accelerators in space applications. By analyzing existing literature, identifying trends and gaps, and proposing future research directions, this work highlights the potential of these accelerators to enhance onboard computing systems.

arxiv情報

著者 Pedro Antunes,Artur Podobas
発行日 2025-04-24 12:04:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.AR | FPGA-Based Neural Network Accelerators for Space Applications: A Survey はコメントを受け付けていません

Plasticine: Accelerating Research in Plasticity-Motivated Deep Reinforcement Learning

要約

生涯学習エージェントを開発することは、人工的な一般情報に不可欠です。
ただし、深い強化学習(RL)システムは、しばしば可塑性の損失に苦しみ、ニューラルネットワークがトレーニング中に順応する能力を徐々に失います。
その重要性にもかかわらず、このフィールドには統一されたベンチマークと評価プロトコルがありません。
ディープRLでのプラスチックの最適化をベンチマークするための最初のオープンソースフレームワークであるプラスティシンを紹介します。
プラスプラスチンは、13を超える緩和方法、10の評価メトリック、および学習シナリオの単一ファイル実装を提供し、標準環境からオープンエンド環境に非定常レベルを増加させます。
このフレームワークにより、研究者は可塑性の損失を体系的に定量化し、緩和戦略を評価し、異なるコンテキストで可塑性のダイナミクスを分析することができます。
ドキュメント、例、およびソースコードは、https://github.com/rle-foundation/plassisticineで入手できます。

要約(オリジナル)

Developing lifelong learning agents is crucial for artificial general intelligence. However, deep reinforcement learning (RL) systems often suffer from plasticity loss, where neural networks gradually lose their ability to adapt during training. Despite its significance, this field lacks unified benchmarks and evaluation protocols. We introduce Plasticine, the first open-source framework for benchmarking plasticity optimization in deep RL. Plasticine provides single-file implementations of over 13 mitigation methods, 10 evaluation metrics, and learning scenarios with increasing non-stationarity levels from standard to open-ended environments. This framework enables researchers to systematically quantify plasticity loss, evaluate mitigation strategies, and analyze plasticity dynamics across different contexts. Our documentation, examples, and source code are available at https://github.com/RLE-Foundation/Plasticine.

arxiv情報

著者 Mingqi Yuan,Qi Wang,Guozheng Ma,Bo Li,Xin Jin,Yunbo Wang,Xiaokang Yang,Wenjun Zeng,Dacheng Tao
発行日 2025-04-24 12:32:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | Plasticine: Accelerating Research in Plasticity-Motivated Deep Reinforcement Learning はコメントを受け付けていません

Goal-Oriented Time-Series Forecasting: Foundation Framework Design

要約

従来の時系列予測は、多くの場合、予測エラーの最小化にのみ焦点を当てており、それらを採用する実際のアプリケーションの特定の要件を無視します。
このペーパーでは、新しいトレーニング方法論を紹介します。これにより、予測モデルは、最終アプリケーションで指定された予測範囲の重要性に基づいて、焦点を動的に調整できます。
これらの範囲を事前に修正する以前の方法とは異なり、トレーニングアプローチは、信号範囲全体にわたる予測をより小さなセグメントに分解し、その後、動的に重み付けされて組み合わせて正確な予測を生成します。
ワイヤレス通信からの新しいデータセットを含む標準のデータセットでメソッドをテストしましたが、予測の精度を向上させるだけでなく、予測モデルを使用する最終アプリケーションのパフォーマンスも向上させることがわかりました。
この研究は、さまざまな実用的なアプリケーションで予測と意思決定をよりよく接続する予測システムを作成するための基礎を提供します。

要約(オリジナル)

Traditional time-series forecasting often focuses only on minimizing prediction errors, ignoring the specific requirements of real-world applications that employ them. This paper presents a new training methodology, which allows a forecasting model to dynamically adjust its focus based on the importance of forecast ranges specified by the end application. Unlike previous methods that fix these ranges beforehand, our training approach breaks down predictions over the entire signal range into smaller segments, which are then dynamically weighted and combined to produce accurate forecasts. We tested our method on standard datasets, including a new dataset from wireless communication, and found that not only it improves prediction accuracy but also improves the performance of end application employing the forecasting model. This research provides a basis for creating forecasting systems that better connect prediction and decision-making in various practical applications.

arxiv情報

著者 Luca-Andrei Fechete,Mohamed Sana,Fadhel Ayed,Nicola Piovesan,Wenjie Li,Antonio De Domenico,Tareq Si Salem
発行日 2025-04-24 12:34:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | Goal-Oriented Time-Series Forecasting: Foundation Framework Design はコメントを受け付けていません

Combining GCN Structural Learning with LLM Chemical Knowledge for or Enhanced Virtual Screening

要約

仮想スクリーニングは、実験的検証のために有望な候補分子の識別を可能にすることにより、現代の創薬において重要な役割を果たします。
サポートベクターマシン(SVM)やXgboostなどの従来の機械学習方法は、事前定義された分子表現に依存しており、多くの場合、情報の損失や潜在的なバイアスにつながります。
対照的に、ディープラーニングは、分子グラフで直接動作することにより、より表現力豊かで偏りのない代替手段を提供する特にグラフ畳み込みネットワーク(GCNS)にアプローチします。
一方、大規模な言語モデル(LLM)は、注意メカニズムを介して大規模なデータから複雑な化学パターンをキャプチャする能力のおかげで、最近、薬物設計の最先端のパフォーマンスを実証しました。
この論文では、GCNをLLM由来の埋め込みと統合して、局所的な構造学習とグローバルな化学知識を組み合わせたハイブリッドアーキテクチャを提案します。
LLM埋め込みは、分子特徴ライブラリに事前計算および保存され、トレーニングまたは推論中にLLMを再実行する必要性を削除し、計算効率を維持できます。
最終的なレイヤーでのみ、各GCNレイヤーラーザーの後にLLM埋め込みを連結すると、パフォーマンスが向上し、ネットワーク全体のグローバルコンテキストをより深く統合できることがわかりました。
結果として得られるモデルは、F1スコア(88.8%)、スタンドアロンGCN(87.9%)、XGBoost(85.5%)、およびSVM(85.4%)のベースラインを上回る優れた結果を達成します。

要約(オリジナル)

Virtual screening plays a critical role in modern drug discovery by enabling the identification of promising candidate molecules for experimental validation. Traditional machine learning methods such as support vector machines (SVM) and XGBoost rely on predefined molecular representations, often leading to information loss and potential bias. In contrast, deep learning approaches-particularly Graph Convolutional Networks (GCNs)-offer a more expressive and unbiased alternative by operating directly on molecular graphs. Meanwhile, Large Language Models (LLMs) have recently demonstrated state-of-the-art performance in drug design, thanks to their capacity to capture complex chemical patterns from large-scale data via attention mechanisms. In this paper, we propose a hybrid architecture that integrates GCNs with LLM-derived embeddings to combine localized structural learning with global chemical knowledge. The LLM embeddings can be precomputed and stored in a molecular feature library, removing the need to rerun the LLM during training or inference and thus maintaining computational efficiency. We found that concatenating the LLM embeddings after each GCN layer-rather than only at the final layer-significantly improves performance, enabling deeper integration of global context throughout the network. The resulting model achieves superior results, with an F1-score of (88.8%), outperforming standalone GCN (87.9%), XGBoost (85.5%), and SVM (85.4%) baselines.

arxiv情報

著者 Radia Berreziga,Mohammed Brahimi,Khairedine Kraim,Hamid Azzoune
発行日 2025-04-24 12:38:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | Combining GCN Structural Learning with LLM Chemical Knowledge for or Enhanced Virtual Screening はコメントを受け付けていません

Context-Aware Neural Gradient Mapping for Fine-Grained Instruction Processing

要約

大規模な言語モデルの最適化プロセスへのコンテキスト埋め込みの統合は、自然言語処理の進歩です。
コンテキスト認識ニューラルグラデーションマッピングフレームワークは、コンテキスト埋め込みを最適化プロセスに直接組み込む動的勾配調整メカニズムを導入します。
このアプローチは、リアルタイムパラメーターの調整を容易にし、まばらまたはうるさいデータ入力が存在する場合でもタスク固有の一般化を強化します。
このフレームワークの数学的基盤は、勾配降下の修正に依存しています。ここでは、コンテキスト埋め込みは、入力機能をマッピングするようにトレーニングされた補足ニューラルネットワークから派生しており、最適な適応勾配になります。
微分形状の原則を使用することにより、高次元の入力依存性が低次元勾配マニホールドにエンコードされ、モデル全体の再訓練を必要とせずに効率的な適応を可能にします。
経験的評価は、提案されたフレームワークが、精度、ノイズへの堅牢性、計算効率など、さまざまなメトリックのベースラインモデルを一貫して上回ることを示しています。
コンテキスト固有の埋め込みの統合により、言語のより複雑な理解が可能になり、多様な言語現象を処理するモデルの能力が向上します。
さらに、この方法で達成される計算効率は、多様な制約の下で動作する大規模な言語モデルのスケーラビリティを示しています。

要約(オリジナル)

The integration of contextual embeddings into the optimization processes of large language models is an advancement in natural language processing. The Context-Aware Neural Gradient Mapping framework introduces a dynamic gradient adjustment mechanism, incorporating contextual embeddings directly into the optimization process. This approach facilitates real-time parameter adjustments, enhancing task-specific generalization even in the presence of sparse or noisy data inputs. The mathematical foundation of this framework relies on gradient descent modifications, where contextual embeddings are derived from a supplementary neural network trained to map input features to optimal adaptation gradients. By employing differential geometry principles, high-dimensional input dependencies are encoded into low-dimensional gradient manifolds, enabling efficient adaptation without necessitating the retraining of the entire model. Empirical evaluations demonstrate that the proposed framework consistently outperforms baseline models across various metrics, including accuracy, robustness to noise, and computational efficiency. The integration of context-specific embeddings allows for a more complex understanding of language, thereby improving the model’s ability to handle diverse linguistic phenomena. Furthermore, the computational efficiency achieved through this method demonstrates its scalability for large-scale language models operating under diverse constraints.

arxiv情報

著者 David Boldo,Lily Pemberton,Gabriel Thistledown,Jacob Fairchild,Felix Kowalski
発行日 2025-04-24 12:49:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | Context-Aware Neural Gradient Mapping for Fine-Grained Instruction Processing はコメントを受け付けていません

Enhancing LLMs with Smart Preprocessing for EHR Analysis

要約

大規模な言語モデル(LLM)は、自然言語処理において顕著な習熟度を示しています。
ただし、特に電子健康記録(EHRS)の処理において、ヘルスケアなどの繊細なドメインでの適用は、限られた計算リソースとプライバシーの懸念によって制約されています。
このペーパーでは、厳しいプライバシー要件と高性能GPUへのアクセスが制限された環境でのローカル展開のために最適化されたコンパクトLLMフレームワークを紹介します。
私たちのアプローチは、臨床ノートから重要な情報を抽出して強調するために、正規表現(regex)や検索の生成(RAG)を含むシンプルでありながら強力な前処理技術を活用しています。
長く非構造化されていないテキストを事前にフィルタリングすることにより、EHR関連のタスクでのより小さなLLMのパフォーマンスを向上させます。
私たちのフレームワークは、プライベートおよび公開されているデータセット(Mimic-IV)の両方でゼロショットと少数の学習パラダイムを使用して評価され、模倣IVで微調整されたLLMとの追加の比較があります。
実験結果は、私たちの前処理戦略がより小さなLLMのパフォーマンスを大幅に充電し、プライバシーに敏感でリソースに制約のあるアプリケーションに適していることを示しています。
この研究は、ローカル、安全な、効率的なヘルスケアアプリケーションのLLMパフォーマンスを最適化するための貴重な洞察を提供します。
プライバシー、計算の実現可能性、臨床的適用性に関連する課題に取り組む一方で、LLMの実世界の展開のための実用的なガイダンスを提供します。

要約(オリジナル)

Large Language Models (LLMs) have demonstrated remarkable proficiency in natural language processing; however, their application in sensitive domains such as healthcare, especially in processing Electronic Health Records (EHRs), is constrained by limited computational resources and privacy concerns. This paper introduces a compact LLM framework optimized for local deployment in environments with stringent privacy requirements and restricted access to high-performance GPUs. Our approach leverages simple yet powerful preprocessing techniques, including regular expressions (regex) and Retrieval-Augmented Generation (RAG), to extract and highlight critical information from clinical notes. By pre-filtering long, unstructured text, we enhance the performance of smaller LLMs on EHR-related tasks. Our framework is evaluated using zero-shot and few-shot learning paradigms on both private and publicly available datasets (MIMIC-IV), with additional comparisons against fine-tuned LLMs on MIMIC-IV. Experimental results demonstrate that our preprocessing strategy significantly supercharges the performance of smaller LLMs, making them well-suited for privacy-sensitive and resource-constrained applications. This study offers valuable insights into optimizing LLM performance for local, secure, and efficient healthcare applications. It provides practical guidance for real-world deployment for LLMs while tackling challenges related to privacy, computational feasibility, and clinical applicability.

arxiv情報

著者 Yixiang Qu,Yifan Dai,Shilin Yu,Pradham Tanikella,Travis Schrank,Trevor Hackman,Didong Li,Di Wu
発行日 2025-04-24 13:07:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI | Enhancing LLMs with Smart Preprocessing for EHR Analysis はコメントを受け付けていません