‘It Felt Like I Was Left in the Dark’: Exploring Information Needs and Design Opportunities for Family Caregivers of Older Adult Patients in Critical Care Settings

要約

高齢者患者は、集中治療室(ICU)患者の急速に成長しているサブグループを構成します。
これらの状況では、彼らの家族の介護者は、患者の医療情報にアクセスして解釈するために無意識の患者を代表することが期待されています。
ただし、現在、介護者は情報の更新について過負荷の臨床医に依存する必要があり、通常、複雑な医療情報を理解するために健康リテラシーが不足しています。
私たちのプロジェクトの目的は、ICUの高齢者患者の介護者の情報ニーズを探求することを目的としており、そこから将来のAIシステムを導くための設計機会を提案できます。
このプロジェクトは、医療情報へのアクセスと解釈における課題を特定するために、11人の介護者との形成的インタビューから始まります。
これらの調査結果から、設計要件を統合し、介護者の課題に対処するためにAIシステムプロトタイプを提案します。
システムプロトタイプには、2つの重要な機能があります。AIが抽出および要約された高齢患者の主要な医療イベントを示すタイムラインの視覚化。
LLMベースのチャットボットは、コンテキストを意識した情報サポートを提供します。
システムのフォローアップユーザー評価について報告し、高齢者のICU介護者向けの将来のAIベースのシステムについて議論することにより、私たちの論文を締めくくります。

要約(オリジナル)

Older adult patients constitute a rapidly growing subgroup of Intensive Care Unit (ICU) patients. In these situations, their family caregivers are expected to represent the unconscious patients to access and interpret patients’ medical information. However, caregivers currently have to rely on overloaded clinicians for information updates and typically lack the health literacy to understand complex medical information. Our project aims to explore the information needs of caregivers of ICU older adult patients, from which we can propose design opportunities to guide future AI systems. The project begins with formative interviews with 11 caregivers to identify their challenges in accessing and interpreting medical information; From these findings, we then synthesize design requirements and propose an AI system prototype to cope with caregivers’ challenges. The system prototype has two key features: a timeline visualization to show the AI extracted and summarized older adult patients’ key medical events; and an LLM-based chatbot to provide context-aware informational support. We conclude our paper by reporting on the follow-up user evaluation of the system and discussing future AI-based systems for ICU caregivers of older adults.

arxiv情報

著者 Shihan Fu,Bingsheng Yao,Smit Desai,Yuqi Hu,Yuling Sun,Samantha Stonbraker,Yanjun Gao,Elizabeth M. Goldberg,Dakuo Wang
発行日 2025-02-07 17:38:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.HC | ‘It Felt Like I Was Left in the Dark’: Exploring Information Needs and Design Opportunities for Family Caregivers of Older Adult Patients in Critical Care Settings はコメントを受け付けていません

Predicting Steady-State Behavior in Complex Networks with Graph Neural Networks

要約

複雑なシステムでは、情報伝播は、拡散または非局在化され、弱く局所化され、強く局在化されていると定義できます。
この研究では、グラフニューラルネットワークモデルの適用を調査して、ネットワーク上の線形動的システムの動作を学習します。
グラフの畳み込みと注意ベースのニューラルネットワークフレームワークが開発され、線形動的システムの定常状態の動作を特定しています。
訓練されたモデルがさまざまな状態を高い精度で区別していることを明らかにします。
さらに、実際のデータでモデルのパフォーマンスを評価しました。
さらに、モデルの説明可能性を理解するために、フレームワークの前方および後方の伝播の分析派生を提供します。

要約(オリジナル)

In complex systems, information propagation can be defined as diffused or delocalized, weakly localized, and strongly localized. This study investigates the application of graph neural network models to learn the behavior of a linear dynamical system on networks. A graph convolution and attention-based neural network framework has been developed to identify the steady-state behavior of the linear dynamical system. We reveal that our trained model distinguishes the different states with high accuracy. Furthermore, we have evaluated model performance with real-world data. In addition, to understand the explainability of our model, we provide an analytical derivation for the forward and backward propagation of our framework.

arxiv情報

著者 Priodyuti Pradhan,Amit Reza
発行日 2025-02-07 17:40:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, nlin.AO | Predicting Steady-State Behavior in Complex Networks with Graph Neural Networks はコメントを受け付けていません

Rejecting Hallucinated State Targets during Planning

要約

生成モデルは、エージェントが経験する可能性があるか有利であると判断する状態または観察に対応するターゲットを提案するために計画に使用できます。
ただし、エージェントは、モデルによって提案された幻覚、実行不可能なターゲットと闘い、妄想的な計画行動につながり、安全性の懸念を引き起こす可能性があります。
人間の脳からインスピレーションを得て、アドオンターゲット評価者でこれらの幻覚ターゲットを拒否することを提案します。
ただし、適切なトレーニングがなければ、評価者は妄想的な見積もりを生み出し、無駄にします。
学習ルール、アーキテクチャ、および2つの新しい後知覚相手戦略の組み合わせを介してこれに対処することを提案します。これは、実行不可能なターゲットの正しい評価につながります。
私たちの実験では、私たちのアプローチが妄想行動を大幅に減らし、計画エージェントのパフォーマンスを向上させることを確認しています。

要約(オリジナル)

Generative models can be used in planning to propose targets corresponding to states or observations that agents deem either likely or advantageous to experience. However, agents can struggle with hallucinated, infeasible targets proposed by the models, leading to delusional planning behaviors, which raises safety concerns. Drawing inspiration from the human brain, we propose to reject these hallucinated targets with an add-on target evaluator. Without proper training, however, the evaluator can produce delusional estimates, rendering it futile. We propose to address this via a combination of learning rule, architecture, and two novel hindsight relabeling strategies, which leads to correct evaluations of infeasible targets. Our experiments confirm that our approach significantly reduces delusional behaviors and enhances the performance of planning agents.

arxiv情報

著者 Mingde Zhao,Tristan Sylvain,Romain Laroche,Doina Precup,Yoshua Bengio
発行日 2025-02-07 18:10:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI | Rejecting Hallucinated State Targets during Planning はコメントを受け付けていません

Simplicity Prevails: Rethinking Negative Preference Optimization for LLM Unlearning

要約

この作業は、モデルのユーティリティを維持しながら、不要なデータの影響(著作権または有害なコンテンツなど)を削除することを目的とした、大規模な言語モデル(LLM)の問題を調査しています。
学習に対する需要の増加にもかかわらず、技術的に接地された最適化フレームワークが不足しています。
グラジエントアセント(GA)タイプのメソッドは、広く使用されていますが、最適化の発散(つまり、事前に訓練された状態からの逸脱)を制御せずに学習プロセスを逆転させ、過剰忘却と潜在的なモデル崩壊のリスクにつながります。
ネガティブな選好最適化(NPO)がこの問題に対処するために提案されており、最先端のLLM学習アプローチの1つと考えられています。
この作業では、NPOを再検討し、別の重要な問題である参照モデルバイアスを特定します。
このバイアスは、NPOの有効性を損なう可能性のある未学習の成功を評価するために、参照モデル(つまり、学習前のモデル)を使用することから生じます。
具体的には、(a)さまざまな難易度レベルを備えた忘れたデータ間での最適化パワーの不均一な割り当て、および(b)学習の解除の初期段階での効果のない勾配重量の平滑化につながります。
これらの課題を克服するために、Simnpoと呼ばれるシンプルで効果的な非学習最適化フレームワークを提案し、参照モデル(単純な選好最適化のレンズを介して)に依存する「単純さ」を削除する際の「単純さ」を示しています。
マルコフチェーンの混合物に基づいた分析を通じて、Simnpoの利点に関するより深い洞察を提供します。
広範な実験では、豆腐やミューズなどのベンチマークでのSimnpoの有効性、および再学習攻撃に対する堅牢性をさらに検証します。
コードはhttps://github.com/optml-group/unlearn-simpleで入手できます。

要約(オリジナル)

This work studies the problem of large language model (LLM) unlearning, aiming to remove unwanted data influences (e.g., copyrighted or harmful content) while preserving model utility. Despite the increasing demand for unlearning, a technically-grounded optimization framework is lacking. Gradient ascent (GA)-type methods, though widely used, are suboptimal as they reverse the learning process without controlling optimization divergence (i.e., deviation from the pre-trained state), leading to risks of over-forgetting and potential model collapse. Negative preference optimization (NPO) has been proposed to address this issue and is considered one of the state-of-the-art LLM unlearning approaches. In this work, we revisit NPO and identify another critical issue: reference model bias. This bias arises from using the reference model (i.e., the model prior to unlearning) to evaluate the unlearning success, which can compromise NPO’s effectiveness. Specifically, it leads to (a) uneven allocation of optimization power across forget data with varying difficulty levels and (b) ineffective gradient weight smoothing during the early stages of unlearning optimization. To overcome these challenges, we propose a simple yet effective unlearning optimization framework, called SimNPO, showing that `simplicity’ in removing the reliance on a reference model (through the lens of simple preference optimization) benefits unlearning. We provide deeper insights into SimNPO’s advantages through an analysis based on mixtures of Markov chains. Extensive experiments further validate SimNPO’s efficacy on benchmarks like TOFU and MUSE, as well as its robustness against relearning attacks. Codes are available at https://github.com/OPTML-Group/Unlearn-Simple.

arxiv情報

著者 Chongyu Fan,Jiancheng Liu,Licong Lin,Jinghan Jia,Ruiqi Zhang,Song Mei,Sijia Liu
発行日 2025-02-07 18:34:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | Simplicity Prevails: Rethinking Negative Preference Optimization for LLM Unlearning はコメントを受け付けていません

Masked Diffusion Models are Secretly Time-Agnostic Masked Models and Exploit Inaccurate Categorical Sampling

要約

マスクされた拡散モデル(MDMS)は、他の離散拡散モデルよりも優れたパフォーマンスのおかげで、個別のデータの生成モデリングの一般的な研究トピックとして浮上しており、言語モデリングタスクの自動回帰モデル(ARMS)に匹敵しています。
マスクされた拡散フレームワークを簡素化する最近の取り組みは、連続空間拡散モデルとより原則的なトレーニングとサンプリングレシピとの整合にさらにつながります。
ただし、このホワイトペーパーでは、MDMのトレーニングとサンプリングの両方が理論的には時間変数、おそらく拡散モデルの重要な署名であり、代わりにマスクされたモデルと同等であることを明らかにします。
サンプリングの側面に関する接続は、提案された最初のヒットサンプラー(FHS)によって描画されます。
具体的には、FHSは理論的にはMDMSの元の生成プロセスと同等であると同時に、時間のかかるカテゴリサンプリングを大幅に緩和し、20 $ \ Times $ speedupを達成することを示します。
さらに、私たちの調査は、MDMがテキスト生成で本当に武器を打ち負かすことができるかどうかについて疑問を投げかけています。
一般的に使用される32ビットの浮動小数点精度でさえ、根本的な数値の問題を初めて特定し、それが不正確なカテゴリサンプリングをもたらします。
理論的および経験的に有効な温度を下げることを示し、結果として生成されるトークンの多様性の減少により、以前の評価が行われ、生成の品質が不完全な生成困惑メトリックのみを介して、やや不公平に評価されます。

要約(オリジナル)

Masked diffusion models (MDMs) have emerged as a popular research topic for generative modeling of discrete data, thanks to their superior performance over other discrete diffusion models, and are rivaling the auto-regressive models (ARMs) for language modeling tasks. The recent effort in simplifying the masked diffusion framework further leads to alignment with continuous-space diffusion models and more principled training and sampling recipes. In this paper, however, we reveal that both training and sampling of MDMs are theoretically free from the time variable, arguably the key signature of diffusion models, and are instead equivalent to masked models. The connection on the sampling aspect is drawn by our proposed first-hitting sampler (FHS). Specifically, we show that the FHS is theoretically equivalent to MDMs’ original generation process while significantly alleviating the time-consuming categorical sampling and achieving a 20$\times$ speedup. In addition, our investigation raises doubts about whether MDMs can truly beat ARMs in text generation. We identify, for the first time, an underlying numerical issue, even with the commonly used 32-bit floating-point precision, which results in inaccurate categorical sampling. We show that it lowers the effective temperature both theoretically and empirically, and the resulting decrease in token diversity makes previous evaluations, which assess the generation quality solely through the incomplete generative perplexity metric, somewhat unfair.

arxiv情報

著者 Kaiwen Zheng,Yongxin Chen,Hanzi Mao,Ming-Yu Liu,Jun Zhu,Qinsheng Zhang
発行日 2025-02-07 18:35:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | Masked Diffusion Models are Secretly Time-Agnostic Masked Models and Exploit Inaccurate Categorical Sampling はコメントを受け付けていません

Smirk: An Atomically Complete Tokenizer for Molecular Foundation Models

要約

テキストベースの基礎モデルは、分子基盤モデルが分子設計と材料科学の進歩を促進するため、科学的発見の重要な部分になりました。
ただし、既存のモデルは、分子空間のほんの一部のみをキャプチャする閉鎖トークンザーによって制約されています。
この作業では、スマイル分子表現言語のカバレッジについて、化学特有のもの19を含む30のトナイザーを体系的に評価し、重要なギャップを明らかにします。
トークン剤の選択の影響を評価するために、N-Gram言語モデルを低コストのプロキシとして導入し、分子特性予測のために18のRobertaスタイルのエンコーダーを微調整することにより、それらの有効性を検証します。
既存のトークンザーの制限を克服するために、OpenSmilesの仕様を完全にカバーして、2つの新しいトークンザー(ShirkとShirk-Gpe)を提案します。
私たちの結果は、化学情報学におけるオープンボキャブラリーモデリングと化学的に多様なベンチマークの必要性を強調しています。
提案されたトークンザーフレームワークは、核、電子、幾何学の自由度を体系的に統合します。
これにより、薬理学、農業、生物学、およびエネルギー貯蔵のアプリケーションが容易になります。

要約(オリジナル)

Text-based foundation models have become an important part of scientific discovery, with molecular foundation models accelerating advancements in molecular design and materials science. However, existing models are constrained by closed-vocabulary tokenizers which capture only a fraction of molecular space. In this work, we systematically evaluate thirty tokenizers, including 19 chemistry-specific ones, for their coverage of the SMILES molecular representation language, revealing significant gaps. To assess the impact of tokenizer choice, we introduce n-gram language models as a low-cost proxy and validate their effectiveness by training and fine-tuning 18 RoBERTa-style encoders for molecular property prediction. To overcome the limitations of existing tokenizers, we propose two new tokenizers — Smirk and Smirk-GPE — with full coverage of the OpenSMILES specification. Our results highlight the need for open-vocabulary modeling and chemically diverse benchmarks in cheminformatics. The proposed tokenizer framework systematically integrates nuclear, electronic, and geometric degrees of freedom; this facilitates applications in pharmacology, agriculture, biology, and energy storage.

arxiv情報

著者 Alexius Wadell,Anoushka Bhutani,Venkatasubramanian Viswanathan
発行日 2025-02-07 18:36:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, physics.chem-ph, q-bio.BM | Smirk: An Atomically Complete Tokenizer for Molecular Foundation Models はコメントを受け付けていません

Joint MoE Scaling Laws: Mixture of Experts Can Be Memory Efficient

要約

専門家(MOE)のアーキテクチャの混合は、大規模な機械学習モデルの研究と現実世界の応用の両方で計算効率を大幅に向上させています。
ただし、メモリの制約の下でのスケーラビリティと効率は比較的目立たないままです。
この作業では、アクティブなパラメーターの数、データセットサイズ、専門家の数などの重要な要因を組み込んだ、密集したMOEモデルとMOEモデルの共同スケーリング法則を提示します。
調査結果は、固定メモリと計算予算の下で最適なMOE構成を選択するための原則的なフレームワークを提供します。
驚くべきことに、MOEモデルは、従来の知恵と矛盾する密なモデルよりも記憶効率が高いことを示しています。
スケーリング法の理論的予測を導き出して検証するために、最大2.7Bのアクティブパラメーターと最大5Bの合計パラメーターで280以上の実験を実施します。
これらの結果は、実用的な大規模なトレーニングシナリオでMOEモデルを設計および展開するための実用的な洞察を提供します。

要約(オリジナル)

Mixture of Experts (MoE) architectures have significantly increased computational efficiency in both research and real-world applications of large-scale machine learning models. However, their scalability and efficiency under memory constraints remain relatively underexplored. In this work, we present joint scaling laws for dense and MoE models, incorporating key factors such as the number of active parameters, dataset size, and the number of experts. Our findings provide a principled framework for selecting the optimal MoE configuration under fixed memory and compute budgets. Surprisingly, we show that MoE models can be more memory-efficient than dense models, contradicting conventional wisdom. To derive and validate the theoretical predictions of our scaling laws, we conduct over 280 experiments with up to 2.7B active parameters and up to 5B total parameters. These results offer actionable insights for designing and deploying MoE models in practical large-scale training scenarios.

arxiv情報

著者 Jan Ludziejewski,Maciej Pióro,Jakub Krajewski,Maciej Stefaniak,Michał Krutul,Jan Małaśnicki,Marek Cygan,Piotr Sankowski,Kamil Adamczewski,Piotr Miłoś,Sebastian Jaszczur
発行日 2025-02-07 18:55:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | Joint MoE Scaling Laws: Mixture of Experts Can Be Memory Efficient はコメントを受け付けていません

MELON: Indirect Prompt Injection Defense via Masked Re-execution and Tool Comparison

要約

最近の研究では、LLMエージェントは間接的な迅速なインジェクション(IPI)攻撃に対して脆弱であることが調査されています。これにより、ツール再取得情報に埋め込まれた悪意のあるタスクがエージェントをリダイレクトして不正アクションを実行できることが調査されています。
IPIに対する既存の防御には、大きな制限があります。本質的なモデルトレーニングリソースが必要であるか、洗練された攻撃に対する有効性が欠けているか、通常のユーティリティに害を及ぼします。
新しいIPI防御であるMelon(マスクされた再検討とツールの比較)を提示します。
私たちのアプローチは、攻撃の成功の下で、エージェントの次のアクションがユーザータスクに依存しなくなるなど、悪意のあるタスクに依存するという観察に基づいています。
これに続いて、マスキング機能を介して変更されたマスクされたユーザープロンプトを使用して、エージェントの軌跡を再実行することにより、攻撃を検出するためにメロンを設計します。
元の実行とマスクされた実行で生成されたアクションが類似している場合、攻撃を特定します。
また、潜在的な偽陽性と偽陰性を減らすための3つの重要な設計も含まれています。
IPIベンチマークエージェントドジョに関する広範な評価は、メロンが攻撃防止とユーティリティの保存の両方でソタ防御を上回ることを示しています。
さらに、メロンとSOTAプロンプト増強防御(メロン-8月と表される)を組み合わせることで、パフォーマンスがさらに向上することを示しています。
また、重要な設計を検証するために、詳細なアブレーション研究も実施しています。

要約(オリジナル)

Recent research has explored that LLM agents are vulnerable to indirect prompt injection (IPI) attacks, where malicious tasks embedded in tool-retrieved information can redirect the agent to take unauthorized actions. Existing defenses against IPI have significant limitations: either require essential model training resources, lack effectiveness against sophisticated attacks, or harm the normal utilities. We present MELON (Masked re-Execution and TooL comparisON), a novel IPI defense. Our approach builds on the observation that under a successful attack, the agent’s next action becomes less dependent on user tasks and more on malicious tasks. Following this, we design MELON to detect attacks by re-executing the agent’s trajectory with a masked user prompt modified through a masking function. We identify an attack if the actions generated in the original and masked executions are similar. We also include three key designs to reduce the potential false positives and false negatives. Extensive evaluation on the IPI benchmark AgentDojo demonstrates that MELON outperforms SOTA defenses in both attack prevention and utility preservation. Moreover, we show that combining MELON with a SOTA prompt augmentation defense (denoted as MELON-Aug) further improves its performance. We also conduct a detailed ablation study to validate our key designs.

arxiv情報

著者 Kaijie Zhu,Xianjun Yang,Jindong Wang,Wenbo Guo,William Yang Wang
発行日 2025-02-07 18:57:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CR | MELON: Indirect Prompt Injection Defense via Masked Re-execution and Tool Comparison はコメントを受け付けていません

ARTInp: CBCT-to-CT Image Inpainting and Image Translation in Radiotherapy

要約

適応放射線療法(ART)ワークフローの重要なステップは、分娩の精度を確保するための治療時に患者の解剖学的構造を評価することです。
この目的のために、コーンビームコンピューター断層撮影(CBCT)は、費用対効果が高く、治療プロセスに統合しやすいことで広く使用されています。
それにもかかわらず、CBCT画像はCTスキャンよりも解像度が低く、アーティファクトが多く、正確な治療検証の信頼性が低下しています。
さらに、患者の全身視覚化が正確な用量送達に重要である総骨髄照射やリンパ節照射(TMLI)などの複雑な治療では、CBCT画像はしばしば不連続であり、関連する解剖学的情報を含むギャップを残します。
これらの制限に対処するために、Image IningintingとCBCT-to-CT翻訳を組み合わせた新しいディープラーニングフレームワークであるArtINP(適応放射線療法の開始)を提案します。
ARTINPは、デュアルネットワークアプローチを採用しています。CBCTボリュームの解剖学的ギャップを埋める完了ネットワークと、高品質の合成CT(SCT)画像を生成するためのカスタム生成敵意ネットワーク(GAN)を採用しています。
Synthrad 2023 ChallengeのペアCBCTおよびCT画像のデータセットでARTINPを訓練しました。18人の患者のテストセットで達成されたパフォーマンスは、放射線療法のCBCTベースのワークフローを強化する可能性を示しています。

要約(オリジナル)

A key step in Adaptive Radiation Therapy (ART) workflows is the evaluation of the patient’s anatomy at treatment time to ensure the accuracy of the delivery. To this end, Cone Beam Computerized Tomography (CBCT) is widely used being cost-effective and easy to integrate into the treatment process. Nonetheless, CBCT images have lower resolution and more artifacts than CT scans, making them less reliable for precise treatment validation. Moreover, in complex treatments such as Total Marrow and Lymph Node Irradiation (TMLI), where full-body visualization of the patient is critical for accurate dose delivery, the CBCT images are often discontinuous, leaving gaps that could contain relevant anatomical information. To address these limitations, we propose ARTInp (Adaptive Radiation Therapy Inpainting), a novel deep-learning framework combining image inpainting and CBCT-to-CT translation. ARTInp employs a dual-network approach: a completion network that fills anatomical gaps in CBCT volumes and a custom Generative Adversarial Network (GAN) to generate high-quality synthetic CT (sCT) images. We trained ARTInp on a dataset of paired CBCT and CT images from the SynthRad 2023 challenge, and the performance achieved on a test set of 18 patients demonstrates its potential for enhancing CBCT-based workflows in radiotherapy.

arxiv情報

著者 Ricardo Coimbra Brioso,Leonardo Crespi,Andrea Seghetto,Damiano Dei,Nicola Lambri,Pietro Mancosu,Marta Scorsetti,Daniele Loiacono
発行日 2025-02-07 13:04:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, eess.IV | ARTInp: CBCT-to-CT Image Inpainting and Image Translation in Radiotherapy はコメントを受け付けていません

A-VL: Adaptive Attention for Large Vision-Language Models

要約

大規模なビジョン言語モデル(LVLM)は、コンピュータービジョンと自然言語処理技術を統合し、実質的な応用の可能性を提供します。
ただし、これらのモデルは、推論中に広範なリソースを必要とします。
適応的な注意技術は、計算冗長性を動的に減らし、効率を向上させることができます。
現在の適応型注意方法は、トランスベースの言語モデルのメモリ要件を大幅に削減しますが、LVLMSに合わせて調整されていません。
LVLMSは、リモート画像トークンとローカルテキストトークンの両方から応答を生成し、異なるモダリティが異なる注意パターンを持っていることを観察します。
この観察は、各モダリティの注意を個別に管理するように促します。
具体的には、視覚入力のために、潜在的に有用な情報のキャッシュを保存しますが、最も重要な部分のみを計算します。
言語入力については、ローカル情報についてもっと関心を持っています。
視覚言語の注意パターンの観察と分析に基づいて、LVLM推論に合わせて調整されたプラグアンドプレイの適応的注意であるA-VLを開発します。
3つのビジョン言語タスクと5つのデータセットに関する広範な評価は、デザインの有効性を示しています。
私たちのアプローチA-VLは、パフォーマンスを損なうことなく、メモリの使用量と計算負荷を削減する際の既存の適応的注意方法を上回ります。

要約(オリジナル)

The Large Vision-Language Model (LVLM) integrates computer vision and natural language processing techniques, offering substantial application potential. However, these models demand extensive resources during inference. Adaptive attention techniques can dynamically reduce computational redundancy and thus improve efficiency. Although current adaptive attention methods significantly reduce the memory requirements of Transformer-based language models, they are not tailored for LVLMs. We observe that LVLMs generate responses from both remote image tokens and local text tokens, and different modalities have different attention patterns. This observation inspires us to manage the attention for each modality separately. Specifically, for visual input, we store the cache of potentially useful information but only compute the most critical parts. For language input, we care more about local information. Based on our observation and analysis of vision-language attention patterns, we develop A-VL, a plug-and-play adaptive attention tailored for LVLM inference. Extensive evaluations on three vision-language tasks and five datasets show the effectiveness of our designs. Our approach A-VL outperforms existing adaptive attention methods in reducing memory usage and computational load without compromising performance.

arxiv情報

著者 Junyang Zhang,Mu Yuan,Ruiguang Zhong,Puhan Luo,Huiyou Zhan,Ningkang Zhang,Chengchen Hu,Xiangyang Li
発行日 2025-02-07 13:09:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | A-VL: Adaptive Attention for Large Vision-Language Models はコメントを受け付けていません