要約
マルチモーダル大手言語モデル(MLLM)は大きな期待を示していますが、推論中にかなりの計算リソースが必要です。
攻撃者は、過度の出力を誘導することでこれを悪用し、資源の疲労とサービスの劣化につながる可能性があります。
以前のエネルギー遅延攻撃は、EOSトークンから出力トークン分布を広く変えることで生成時間を増やすことを目的としていますが、EOSレベルの部分的な部分的な部分(POS)特性が出力カウントでの文レベルの構造パターンに対する影響を無視し、有効性を制限します。
これに対処するために、MLLMを誘導して過度に冗長で反復的なシーケンスを生成するように設計された攻撃であるLingoloopを提案します。
まず、トークンのPOSタグがEOSトークンを生成する可能性に強く影響することがわかります。
この洞察に基づいて、POS情報に導かれる注意の重みを調整することにより、EOSトークンの生成を延期するためのPOS認識遅延メカニズムを提案します。
第二に、繰り返しループを誘導するための出力の多様性を制約することは、持続的な生成に効果的であることを特定します。
隠された状態の大きさを制限する生成パス剪定メカニズムを導入し、モデルが永続的なループを生成するよう奨励します。
広範な実験は、リンゴループが生成されたトークンを最大30倍増加させ、QWEN2.5-VL-3Bなどのモデルで同等の因子でエネルギー消費を増加させることができることを示しており、一貫してMLLMを最大生成制限に向けて駆り立てています。
これらの調査結果は、重要なMLLMの脆弱性を明らかにし、信頼できる展開に課題をもたらします。
コードは、論文の受け入れに続いて公開されます。
要約(オリジナル)
Multimodal Large Language Models (MLLMs) have shown great promise but require substantial computational resources during inference. Attackers can exploit this by inducing excessive output, leading to resource exhaustion and service degradation. Prior energy-latency attacks aim to increase generation time by broadly shifting the output token distribution away from the EOS token, but they neglect the influence of token-level Part-of-Speech (POS) characteristics on EOS and sentence-level structural patterns on output counts, limiting their efficacy. To address this, we propose LingoLoop, an attack designed to induce MLLMs to generate excessively verbose and repetitive sequences. First, we find that the POS tag of a token strongly affects the likelihood of generating an EOS token. Based on this insight, we propose a POS-Aware Delay Mechanism to postpone EOS token generation by adjusting attention weights guided by POS information. Second, we identify that constraining output diversity to induce repetitive loops is effective for sustained generation. We introduce a Generative Path Pruning Mechanism that limits the magnitude of hidden states, encouraging the model to produce persistent loops. Extensive experiments demonstrate LingoLoop can increase generated tokens by up to 30 times and energy consumption by a comparable factor on models like Qwen2.5-VL-3B, consistently driving MLLMs towards their maximum generation limits. These findings expose significant MLLMs’ vulnerabilities, posing challenges for their reliable deployment. The code will be released publicly following the paper’s acceptance.
arxiv情報
著者 | Jiyuan Fu,Kaixun Jiang,Lingyi Hong,Jinglun Li,Haijing Guo,Dingkang Yang,Zhaoyu Chen,Wenqiang Zhang |
発行日 | 2025-06-17 13:14:55+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google