Summarization Metrics for Spanish and Basque: Do Automatic Scores and LLM-Judges Correlate with Humans?

要約

自動テキストの要約のための評価メトリックとLLM-As-a-Judgeモデルに関する研究は、英語に主に焦点を当てており、他の言語での有効性の理解を制限しています。
新しいデータセットバス(バスクとスペインの要約評価)を通じて、バスクとスペイン語で2,040の抽象的な要約で人間の判断を収集することにより、この状況に対処し、4つの異なるプロンプトで手動または5つのLLMによって生成されます。
各要約について、アノテーターは、5点のリッカートスケールで5つの基準を評価しました:一貫性、一貫性、流ency性、関連性、5W1H。
これらのデータを使用して、概要の評価に使用されていた従来の自動メトリックと、このタスクでこのタスクで強力なパフォーマンスを示すいくつかのLLM As-a-Judgeモデルを再評価します。
我々の結果は、現在の独自の裁判官LLMが人間の判断と最も高い相関があり、その後に基準固有の自動メトリックが続いている一方で、オープンソースの裁判官LLMはパフォーマンスが低いことを示しています。
22,525のニュース記事を含むサブヘッドを含む最初の大規模なバスク要約データセットとともに、BasseとCodeを公開します。

要約(オリジナル)

Studies on evaluation metrics and LLM-as-a-Judge models for automatic text summarization have largely been focused on English, limiting our understanding of their effectiveness in other languages. Through our new dataset BASSE (BAsque and Spanish Summarization Evaluation), we address this situation by collecting human judgments on 2,040 abstractive summaries in Basque and Spanish, generated either manually or by five LLMs with four different prompts. For each summary, annotators evaluated five criteria on a 5-point Likert scale: coherence, consistency, fluency, relevance, and 5W1H. We use these data to reevaluate traditional automatic metrics used for evaluating summaries, as well as several LLM-as-a-Judge models that show strong performance on this task in English. Our results show that currently proprietary judge LLMs have the highest correlation with human judgments, followed by criteria-specific automatic metrics, while open-sourced judge LLMs perform poorly. We release BASSE and our code publicly, along with the first large-scale Basque summarization dataset containing 22,525 news articles with their subheads.

arxiv情報

著者 Jeremy Barnes,Naiara Perez,Alba Bonet-Jover,Begoña Altuna
発行日 2025-03-21 10:52:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | Summarization Metrics for Spanish and Basque: Do Automatic Scores and LLM-Judges Correlate with Humans? はコメントを受け付けていません

A Study into Investigating Temporal Robustness of LLMs

要約

大規模な言語モデル(LLMS)は、驚くほどの事実の世界知識をカプセル化します。
ただし、時間的な質問と歴史的知識に関する彼らのパフォーマンスは、時間的範囲と方向性を理解したり、時間的側面を完全に無視したりすることができないため、限られています。
この研究では、時間情報を処理し、時間的推論と一時的な事実知識を必要とするタスクを実行する能力に基づいて、質問に答えるためのLLMがどれほど堅牢であるかを正確に測定することを目指しています。
具体的には、ゼロショット設定で6つの一般的なLLMの感度をチェックするために、事実情報のために8つの時間に敏感な堅牢性テストを設計します。
全体として、LLMは、特に時間的再構成と、さまざまな粒度の時間的参照の使用において、時間的堅牢性を欠いていることがわかります。
これらの8つのテストの選択を自動的に使用して、モデルの時間的堅牢性をその場でのユーザーの質問に対して判断する方法を示します。
最後に、この研究の結果を適用して、時間的QAパフォーマンスを最大55%改善します。

要約(オリジナル)

Large Language Models (LLMs) encapsulate a surprising amount of factual world knowledge. However, their performance on temporal questions and historical knowledge is limited because they often cannot understand temporal scope and orientation or neglect the temporal aspect altogether. In this study, we aim to measure precisely how robust LLMs are for question answering based on their ability to process temporal information and perform tasks requiring temporal reasoning and temporal factual knowledge. Specifically, we design eight time-sensitive robustness tests for factual information to check the sensitivity of six popular LLMs in the zero-shot setting. Overall, we find LLMs lacking temporal robustness, especially to temporal reformulations and the use of different granularities of temporal references. We show how a selection of these eight tests can be used automatically to judge a model’s temporal robustness for user questions on the fly. Finally, we apply the findings of this study to improve the temporal QA performance by up to 55 percent.

arxiv情報

著者 Jonas Wallat,Abdelrahman Abdallah,Adam Jatowt,Avishek Anand
発行日 2025-03-21 11:56:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 68T50, cs.CL, cs.IR, I.2.7 | A Study into Investigating Temporal Robustness of LLMs はコメントを受け付けていません

Controlled Low-Rank Adaptation with Subspace Regularization for Continued Training on Large Language Models

要約

大規模な言語モデル(LLM)は、自然言語処理において顕著な能力を示しますが、新しいタスクを学ぶときに壊滅的な忘却に直面します。新しいドメインへの適応により、以前のタスクでのパフォーマンスが大幅に低下します。
この論文では、LORA構造に関するサブスペース正規化方法である制御されたLora(Clora)を提案します。
モデル容量に最小限の制約を導入しながら出力変化のスケールを削減することを目指して、CloraはMatrixのヌル空間を更新する方向に制約を課します。
1段階のLLM Finetuningタスクと継続的な学習設定での実験結果は、壊滅的な忘却緩和を伴う効果的なパラメーター効率的な微調整法としてのCloraの超高度を強調しています。

要約(オリジナル)

Large language models (LLMs) exhibit remarkable capabilities in natural language processing but face catastrophic forgetting when learning new tasks, where adaptation to a new domain leads to a substantial decline in performance on previous tasks. In this paper, we propose Controlled LoRA (CLoRA), a sub-space regularization method on LoRA structure. Aiming to reduce the scale of output change while introduce minimal constraint on model capacity, CLoRA imposes constraint on the direction of updating matrix’s null space. Experimental results on one-stage LLM finetuning tasks and continual learning settings highlight the superority of CLoRA as a effective parameter efficient finetuning method with catastrophic forgetting mitigating.Further investigation for model parameters indicates that CLoRA effectively balances the trade-off between model capacity and degree of forgetting.

arxiv情報

著者 Yuheng Lu,Bingshuo Qian,Caixia Yuan,Huixing Jiang,Xiaojie Wang
発行日 2025-03-21 12:34:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | Controlled Low-Rank Adaptation with Subspace Regularization for Continued Training on Large Language Models はコメントを受け付けていません

Reverse Probing: Evaluating Knowledge Transfer via Finetuned Task Embeddings for Coreference Resolution

要約

この作業では、単純なソースからより複雑なターゲットタスクへの知識移転を評価するために、古典的な調査を再考します。
多様な単純なターゲットプロービングタスクの複雑なソースタスクから凍結表現を調査する代わりに(通常はプロービングで行われるように)、単一のターゲットタスク上の複数の単純なソースタスクからの埋め込みの有効性を調査します。
焦点ターゲットタスクとしてコンテキストの理解を必要とする言語的に複雑な問題であるコアレファレンス解像度を選択し、パラフラーズ検出、エンティティ認識、関係抽出などの比較的単純なタスクタスクからの埋め込みの有用性をテストします。
体系的な実験を通じて、個々のタスク埋め込みの影響を評価します。
私たちの調査結果は、タスクの埋め込みのコアレーション解像度のユーティリティが大幅に異なることを明らかにしており、セマンティックな類似性タスク(たとえば、言い換え検出)が最も有益であることが証明されています。
さらに、微調整されたモデルの中間層からの表現は、多くの場合、最終層のモデルよりも優れています。
複数のタスクからの埋め込みを組み合わせると、パフォーマンスが一貫して改善され、注意ベースの集約により大きな利益が得られます。
これらの洞察は、タスク固有の表現と複雑なダウンストリームタスクへの適応性との関係に光を当て、埋め込みレベルのタスク転送のさらなる調査を促進しました。

要約(オリジナル)

In this work, we reimagine classical probing to evaluate knowledge transfer from simple source to more complex target tasks. Instead of probing frozen representations from a complex source task on diverse simple target probing tasks (as usually done in probing), we explore the effectiveness of embeddings from multiple simple source tasks on a single target task. We select coreference resolution, a linguistically complex problem requiring contextual understanding, as focus target task, and test the usefulness of embeddings from comparably simpler tasks tasks such as paraphrase detection, named entity recognition, and relation extraction. Through systematic experiments, we evaluate the impact of individual and combined task embeddings. Our findings reveal that task embeddings vary significantly in utility for coreference resolution, with semantic similarity tasks (e.g., paraphrase detection) proving most beneficial. Additionally, representations from intermediate layers of fine-tuned models often outperform those from final layers. Combining embeddings from multiple tasks consistently improves performance, with attention-based aggregation yielding substantial gains. These insights shed light on relationships between task-specific representations and their adaptability to complex downstream tasks, encouraging further exploration of embedding-level task transfer.

arxiv情報

著者 Tatiana Anikina,Arne Binder,David Harbecke,Stalin Varanasi,Leonhard Hennig,Simon Ostermann,Sebastian Möller,Josef van Genabith
発行日 2025-03-21 12:51:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Reverse Probing: Evaluating Knowledge Transfer via Finetuned Task Embeddings for Coreference Resolution はコメントを受け付けていません

Towards Generating Automatic Anaphora Annotations

要約

さまざまなNLPタスクでうまく機能する可能性のあるトレーニングモデルには、大量のデータが必要であり、これはANAPHORAやConference Resolutionなどの微妙なタスクでより明確になります。
手動の金注釈付きデータを作成することの法外なコストに対処するために、このペーパーでは、CoreFerferentialentallyアノテーションを使用してデータセットを自動的に作成する2つの方法を調査します。
既存のデータセットからの直接変換、および新しい言語や目に見えない言語を処理できる多言語モデルを使用して解析します。
この論文では、これらの2つの面での現在の進捗状況、および現在直面している努力の課題と、これらの課題を克服するための私たちのアプローチについて詳しく説明しています。

要約(オリジナル)

Training models that can perform well on various NLP tasks require large amounts of data, and this becomes more apparent with nuanced tasks such as anaphora and conference resolution. To combat the prohibitive costs of creating manual gold annotated data, this paper explores two methods to automatically create datasets with coreferential annotations; direct conversion from existing datasets, and parsing using multilingual models capable of handling new and unseen languages. The paper details the current progress on those two fronts, as well as the challenges the efforts currently face, and our approach to overcoming these challenges.

arxiv情報

著者 Dima Taji,Daniel Zeman
発行日 2025-03-21 13:00:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Towards Generating Automatic Anaphora Annotations はコメントを受け付けていません

SATA: A Paradigm for LLM Jailbreak via Simple Assistive Task Linkage

要約

大規模な言語モデル(LLM)は、さまざまなタスクで大きな進歩を遂げていますが、その安全アライメントは依然として大きな懸念事項です。
ジェイルブレイクプロンプトを探索すると、LLMSの脆弱性を明らかにし、それらを確保するための努力を導くことができます。
既存の方法は、主にLLMが従うか、複数の反復に依存する洗練された指示を設計します。これにより、脱獄のパフォーマンスと効率が妨げられる可能性があります。
この作業では、LLMセーフガードを効果的に回避し、有害な反応を引き出すことができる新しい脱獄パラダイム、単純な支援タスクリンケージ(SATA)を提案します。
具体的には、SATAは最初に悪意のあるクエリ内で有害なキーワードをマスクし、1つまたは複数の[マスク]特別なトークンを含む比較的良性のクエリを生成します。
次に、マスクされたキーワードのセマンティクスをエンコードするために、マスクされた言語モデルタスクや位置タスクごとの要素検索などの簡単な支援タスクを採用します。
最後に、SATAは支援タスクをマスクされたクエリとリンクして、脱獄を共同で実行します。
広範な実験では、SATAが最先端のパフォーマンスを達成し、大きなマージンでベースラインを上回ることが示されています。
具体的には、Advbench Dataset、Mask Language Model(MLM)Assistive Taskを使用して、SATAは85%の全体的な攻撃成功率(ASR)と4.57の有害スコア(HS)を達成し、Position by Position(ELP)支援タスクで、SATAは76%のASRと4.43のHSを達成します。

要約(オリジナル)

Large language models (LLMs) have made significant advancements across various tasks, but their safety alignment remain a major concern. Exploring jailbreak prompts can expose LLMs’ vulnerabilities and guide efforts to secure them. Existing methods primarily design sophisticated instructions for the LLM to follow, or rely on multiple iterations, which could hinder the performance and efficiency of jailbreaks. In this work, we propose a novel jailbreak paradigm, Simple Assistive Task Linkage (SATA), which can effectively circumvent LLM safeguards and elicit harmful responses. Specifically, SATA first masks harmful keywords within a malicious query to generate a relatively benign query containing one or multiple [MASK] special tokens. It then employs a simple assistive task such as a masked language model task or an element lookup by position task to encode the semantics of the masked keywords. Finally, SATA links the assistive task with the masked query to jointly perform the jailbreak. Extensive experiments show that SATA achieves state-of-the-art performance and outperforms baselines by a large margin. Specifically, on AdvBench dataset, with mask language model (MLM) assistive task, SATA achieves an overall attack success rate (ASR) of 85% and harmful score (HS) of 4.57, and with element lookup by position (ELP) assistive task, SATA attains an overall ASR of 76% and HS of 4.43.

arxiv情報

著者 Xiaoning Dong,Wenbo Hu,Wei Xu,Tianxing He
発行日 2025-03-21 13:00:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CR | SATA: A Paradigm for LLM Jailbreak via Simple Assistive Task Linkage はコメントを受け付けていません

Are formal and functional linguistic mechanisms dissociated in language models?

要約

大規模な言語モデル(LLM)はますます能力がありますが、これらの機能は不均一に分散されています。流fluent的で文法的なテキストの作成などの正式な言語タスクに優れていますが、推論や一貫した事実検索などの機能的な言語タスクとより闘っています。
神経科学に触発された最近の研究は、正式な言語タスクと機能的言語タスクの両方で成功するためには、LLMがそれぞれに異なるメカニズムを使用する必要があることを示唆しています。
このようなローカリゼーションは、トレーニングを通じて組み込まれるか、自発的に出現することができます。
この論文では、次のように尋ねます。現在のモデルは、機能的な言語能力を急速に改善することで、形式的および機能的言語メカニズムの明確な局在を示しますか?
「回路」または最小限の計算サブグラフを見つけて比較することにより、これに答えます。これは、さまざまな形式的および機能的なタスクを担当します。
10個の異なるタスクにわたって5 LLMを比較すると、正式なタスクと機能的タスクの回路間には実際にはほとんど重複がありませんが、人間の脳に存在するように、正式な言語タスク間にはほとんど重複がないことがわかります。
したがって、機能的なタスク回路とは異なる単一の正式な言語ネットワークは、とらえどころのないままです。
ただし、クロスタスクの忠実さ – ある回路が別のタスクを解決する能力の能力 – 正式なメカニズムと機能的メカニズムの分離を観察し、正式なタスク間の共有メカニズムが存在する可能性があることを示唆しています。

要約(オリジナル)

Although large language models (LLMs) are increasingly capable, these capabilities are unevenly distributed: they excel at formal linguistic tasks, such as producing fluent, grammatical text, but struggle more with functional linguistic tasks like reasoning and consistent fact retrieval. Inspired by neuroscience, recent work suggests that to succeed on both formal and functional linguistic tasks, LLMs should use different mechanisms for each; such localization could either be built-in or emerge spontaneously through training. In this paper, we ask: do current models, with fast-improving functional linguistic abilities, exhibit distinct localization of formal and functional linguistic mechanisms? We answer this by finding and comparing the ‘circuits’, or minimal computational subgraphs, responsible for various formal and functional tasks. Comparing 5 LLMs across 10 distinct tasks, we find that while there is indeed little overlap between circuits for formal and functional tasks, there is also little overlap between formal linguistic tasks, as exists in the human brain. Thus, a single formal linguistic network, unified and distinct from functional task circuits, remains elusive. However, in terms of cross-task faithfulness – the ability of one circuit to solve another’s task – we observe a separation between formal and functional mechanisms, suggesting that shared mechanisms between formal tasks may exist.

arxiv情報

著者 Michael Hanna,Yonatan Belinkov,Sandro Pezzelle
発行日 2025-03-21 13:15:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, I.2.7 | Are formal and functional linguistic mechanisms dissociated in language models? はコメントを受け付けていません

Optimizing Attention with Mirror Descent: Generalized Max-Margin Token Selection

要約

注意メカニズムは、自然言語処理やコンピュータービジョンなど、人工知能のいくつかのドメインに革命をもたらしました。
最近の研究では、注意ベースのモデルにおける勾配降下(GD)の最適化ダイナミクスとその好ましいソリューションの構造的特性を特徴づけていますが、ミラー降下(MD)などのより一般的な最適化アルゴリズムについてはあまり知られていません。
この論文では、ソフトマックスの注意メカニズムに合わせたMDアルゴリズムのファミリーの収束特性と暗黙的バイアスを調査します。
具体的には、これらのアルゴリズムが、softmax注意モデルを使用して分類問題に適用した場合、$ \ ell_p $ normオブジェクトを持つ一般化されたハードマージンSVMに向けて収束することを示します。
特に、我々の理論的結果は、現在の問題の非常に非線形および非凸性の性質にもかかわらず、収束率がより単純なモデルの従来のGDの収束率に匹敵することを明らかにしています。
さらに、キークエリマトリックスとデコーダーのジョイント最適化ダイナミクスを掘り下げ、この複雑なジョイント最適化がそれぞれのハードマージンSVMソリューションに収束する条件を確立します。
最後に、実際のデータに関する数値実験は、MDアルゴリズムが標準GDよりも一般化を改善し、最適なトークン選択において優れていることを示しています。

要約(オリジナル)

Attention mechanisms have revolutionized several domains of artificial intelligence, such as natural language processing and computer vision, by enabling models to selectively focus on relevant parts of the input data. While recent work has characterized the optimization dynamics of gradient descent (GD) in attention-based models and the structural properties of its preferred solutions, less is known about more general optimization algorithms such as mirror descent (MD). In this paper, we investigate the convergence properties and implicit biases of a family of MD algorithms tailored for softmax attention mechanisms, with the potential function chosen as the $p$-th power of the $\ell_p$-norm. Specifically, we show that these algorithms converge in direction to a generalized hard-margin SVM with an $\ell_p$-norm objective when applied to a classification problem using a softmax attention model. Notably, our theoretical results reveal that the convergence rate is comparable to that of traditional GD in simpler models, despite the highly nonlinear and nonconvex nature of the present problem. Additionally, we delve into the joint optimization dynamics of the key-query matrix and the decoder, establishing conditions under which this complex joint optimization converges to their respective hard-margin SVM solutions. Lastly, our numerical experiments on real data demonstrate that MD algorithms improve generalization over standard GD and excel in optimal token selection.

arxiv情報

著者 Addison Kristanto Julistiono,Davoud Ataee Tarzanagh,Navid Azizan
発行日 2025-03-21 13:15:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | Optimizing Attention with Mirror Descent: Generalized Max-Margin Token Selection はコメントを受け付けていません

Modifying Large Language Model Post-Training for Diverse Creative Writing

要約

創造的なライティングタスクには特異な正解がないため、これらのタスクを実行するために訓練された大規模な言語モデル(LLM)は、多様な有効な出力を生成できるはずです。
ただし、LLM後のトレーニングは、多くの場合、生成品質の向上に焦点を当てていますが、生産量の多様性を促進することを怠っています。
したがって、クリエイティブライティングの世代では、出力の多様性と品質の両方を促進するために、トレーニング後のアプローチを調査します。
私たちの核となるアイデアは、逸脱を含めることです – トレーニングサンプルと同じプロンプトを持つ他のすべてのサンプルの違いの程度 – は、まれな高品質のインスタンスからの学習を促進するトレーニング目標です。
直接選好最適化(DPO)およびオッズ比優先最適化(ORPO)へのアプローチを採用することにより、訓練されたモデルの出力多様性を促進しながら品質を最小限に抑えることができることを実証します。
8Bパラメーターを備えた当社の最良のモデルは、人間が作成したデータセットとしての標準的な多様性を達成でき、GPT-4OおよびDeepSeek-R1を調べた最適な命令チューニングモデルと同様の出力品質を備えています。
さらに、人間の評価、アブレーション、既存の多様化アプローチとの比較でアプローチを検証します。

要約(オリジナル)

As creative writing tasks do not have singular correct answers, large language models (LLMs) trained to perform these tasks should be able to generate diverse valid outputs. However, LLM post-training often focuses on improving generation quality but neglects to facilitate output diversity. Hence, in creative writing generation, we investigate post-training approaches to promote both output diversity and quality. Our core idea is to include deviation — the degree of difference between a training sample and all other samples with the same prompt — in the training objective to facilitate learning from rare high-quality instances. By adopting our approach to direct preference optimization (DPO) and odds ratio preference optimization (ORPO), we demonstrate that we can promote the output diversity of trained models while minimally decreasing quality. Our best model with 8B parameters could achieve on-par diversity as a human-created dataset while having output quality similar to the best instruction-tuned models we examined, GPT-4o and DeepSeek-R1. We further validate our approaches with a human evaluation, an ablation, and a comparison to an existing diversification approach, DivPO.

arxiv情報

著者 John Joon Young Chung,Vishakh Padmakumar,Melissa Roemmele,Yuqian Sun,Max Kreminski
発行日 2025-03-21 13:21:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG | Modifying Large Language Model Post-Training for Diverse Creative Writing はコメントを受け付けていません

Dynamic-LLaVA: Efficient Multimodal Large Language Models via Dynamic Vision-language Context Sparsification

要約

マルチモーダル大手言語モデル(MLLM)は、ビジョン理解、推論、および相互作用において顕著な成功を収めています。
ただし、推論計算とメモリは、デコード中の出力トークンの生成とともに徐々に増加し、MLLMの有効性に直接影響します。
既存の方法は、効率的なMLLMを達成するためにビジョンコンテキストの冗長性を減らしようとします。
残念ながら、プレフィル段階でのビジョンコンテキスト削減の効率の利点は、デコード段階で徐々に減少します。
この問題に対処するために、ダイナミックビジョンと言語のコンテキストSparsification Frameworkダイナミックラバを提案しました。これにより、Prefill段階での視力コンテキストの冗長性が動的に減少し、デコード中の生成された言語コンテキストのメモリと計算オーバーヘッドが減少します。
Dynamic-llavaは、MLLMの効率的な推論を実現するために、さまざまな推論モード、つまりKVキャッシュの有無にかかわらずデコードするさまざまな推論モードのために、調整されたスパル化推論スキームを設計します。
実際には、Dynamic-llavaは、Prefill段階で計算消費を$ \ SIM $ 75 \%減らすことができます。
一方、MLLMSの生成プロセス全体を通じて、Dynamic-llavaは、kvキャッシュなしでデコードする下で$ \ sim $ 50 \%計算消費を減らしますが、ビジョン課題の文脈の副次的に$ 50 \%gpuメモリオーバーヘッドを保存します。
また、広範な実験では、動的ラバが、完全なコンテキスト推論ベースラインと比較して、無視できる理解と生成能力の劣化、さらにはパフォーマンスの向上を伴うMLLMの効率的な推論を達成することを示しています。
コードはhttps://github.com/osilly/dynamic_llavaで入手できます。

要約(オリジナル)

Multimodal Large Language Models (MLLMs) have achieved remarkable success in vision understanding, reasoning, and interaction. However, the inference computation and memory increase progressively with the generation of output tokens during decoding, directly affecting the efficacy of MLLMs. Existing methods attempt to reduce the vision context redundancy to achieve efficient MLLMs. Unfortunately, the efficiency benefits of the vision context reduction in the prefill stage gradually diminish during the decoding stage. To address this problem, we proposed a dynamic vision-language context sparsification framework Dynamic-LLaVA, which dynamically reduces the redundancy of vision context in the prefill stage and decreases the memory and computation overhead of the generated language context during decoding. Dynamic-LLaVA designs a tailored sparsification inference scheme for different inference modes, i.e., prefill, decoding with and without KV cache, to achieve efficient inference of MLLMs. In practice, Dynamic-LLaVA can reduce computation consumption by $\sim$75\% in the prefill stage. Meanwhile, throughout the entire generation process of MLLMs, Dynamic-LLaVA reduces the $\sim$50\% computation consumption under decoding without KV cache, while saving $\sim$50\% GPU memory overhead when decoding with KV cache, due to the vision-language context sparsification. Extensive experiments also demonstrate that Dynamic-LLaVA achieves efficient inference for MLLMs with negligible understanding and generation ability degradation or even performance gains compared to the full-context inference baselines. Code is available at https://github.com/Osilly/dynamic_llava .

arxiv情報

著者 Wenxuan Huang,Zijie Zhai,Yunhang Shen,Shaosheng Cao,Fei Zhao,Xiangfeng Xu,Zheyu Ye,Yao Hu,Shaohui Lin
発行日 2025-03-21 13:30:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG | Dynamic-LLaVA: Efficient Multimodal Large Language Models via Dynamic Vision-language Context Sparsification はコメントを受け付けていません