Conditional Panoramic Image Generation via Masked Autoregressive Modeling

要約

パノラマ画像生成の最近の進歩は、既存のアプローチにおける2つの重要な制限を強調しています。
第一に、ほとんどの方法は拡散モデルに基づいて構築されます。拡散モデルは、球状マッピングによって引き起こされる(i.i.d.)ガウスノイズの仮定の違反により、本質的に等間投影(ERP)パノラマに不適切です。
第二に、これらの方法はしばしば、テキスト条件付きの世代(テキストからパノラマ)と画像コンディショナルの生成(パノラマの中断)を別々のタスクとして扱い、異なるアーキテクチャとタスク固有のデータに依存します。
この作業では、統一されたフレームワークであるパノラマオートレーリングモデル(PAR)を提案します。これは、これらの課題に対処するためにマスクされた自己回帰モデリングを活用します。
PARはI.I.Dを回避します。
仮定の制約とテキストと画像の条件付けをまとまりのあるアーキテクチャに統合し、タスク全体でシームレスな生成を可能にします。
既存の生成モデルに固有の不連続性に対処するために、円形のパディングを導入して空間的一貫性を高め、生成品質を改善するための一貫性アライメント戦略を提案します。
広範な実験は、テキストからイメージの生成、およびパノラマがタスクを上回る競争力を示し、有望なスケーラビリティと一般化能力を紹介します。

要約(オリジナル)

Recent progress in panoramic image generation has underscored two critical limitations in existing approaches. First, most methods are built upon diffusion models, which are inherently ill-suited for equirectangular projection (ERP) panoramas due to the violation of the identically and independently distributed (i.i.d.) Gaussian noise assumption caused by their spherical mapping. Second, these methods often treat text-conditioned generation (text-to-panorama) and image-conditioned generation (panorama outpainting) as separate tasks, relying on distinct architectures and task-specific data. In this work, we propose a unified framework, Panoramic AutoRegressive model (PAR), which leverages masked autoregressive modeling to address these challenges. PAR avoids the i.i.d. assumption constraint and integrates text and image conditioning into a cohesive architecture, enabling seamless generation across tasks. To address the inherent discontinuity in existing generative models, we introduce circular padding to enhance spatial coherence and propose a consistency alignment strategy to improve generation quality. Extensive experiments demonstrate competitive performance in text-to-image generation and panorama outpainting tasks while showcasing promising scalability and generalization capabilities.

arxiv情報

著者 Chaoyang Wang,Xiangtai Li,Lu Qi,Xiaofan Lin,Jinbin Bai,Qianyu Zhou,Yunhai Tong
発行日 2025-05-22 16:20:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Conditional Panoramic Image Generation via Masked Autoregressive Modeling はコメントを受け付けていません

Training-Free Efficient Video Generation via Dynamic Token Carving

要約

ビデオ拡散トランス(DIT)モデルの顕著な生成品質にもかかわらず、それらの実用的な展開は、広範な計算要件によって厳しく妨げられています。
この非効率性は、2つの重要な課題に由来しています。トークンの長さと拡散モデルの多段階的な性質に関する自己触たちの二次的な複雑さです。
これらの制限に対処するために、動的な注意の彫刻とプログレッシブ解像度の生成を組み合わせた新しい推論パイプラインであるJengaを提示します。
私たちのアプローチは、2つの重要な洞察を活用しています。(1)早期の除去ステップには高解像度の潜在性が必要ありません。
Jengaは、3Dスペース充填曲線を使用して関連するトークン相互作用を動的に選択するブロックワイズの注意メカニズムと、世代中に潜在的な解像度を徐々に増加させるプログレッシブ解像度戦略を導入します。
実験結果は、Jengaが同等の生成品質(Vbenchで0.01 \%のパフォーマンス低下で8.83 $ \ Times $ speedup)を維持しながら、複数の最先端のビデオ拡散モデルでかなりのスピードアップを達成することを示しています。
プラグアンドプレイソリューションとして、JENGAは、モデル再トレーニングを必要とせずに、推論時間を数分から数秒に短縮することにより、最新のハードウェアで実用的で高品質のビデオ生成を可能にします。
コード:https://github.com/dvlab-research/jenga

要約(オリジナル)

Despite the remarkable generation quality of video Diffusion Transformer (DiT) models, their practical deployment is severely hindered by extensive computational requirements. This inefficiency stems from two key challenges: the quadratic complexity of self-attention with respect to token length and the multi-step nature of diffusion models. To address these limitations, we present Jenga, a novel inference pipeline that combines dynamic attention carving with progressive resolution generation. Our approach leverages two key insights: (1) early denoising steps do not require high-resolution latents, and (2) later steps do not require dense attention. Jenga introduces a block-wise attention mechanism that dynamically selects relevant token interactions using 3D space-filling curves, alongside a progressive resolution strategy that gradually increases latent resolution during generation. Experimental results demonstrate that Jenga achieves substantial speedups across multiple state-of-the-art video diffusion models while maintaining comparable generation quality (8.83$\times$ speedup with 0.01\% performance drop on VBench). As a plug-and-play solution, Jenga enables practical, high-quality video generation on modern hardware by reducing inference time from minutes to seconds — without requiring model retraining. Code: https://github.com/dvlab-research/Jenga

arxiv情報

著者 Yuechen Zhang,Jinbo Xing,Bin Xia,Shaoteng Liu,Bohao Peng,Xin Tao,Pengfei Wan,Eric Lo,Jiaya Jia
発行日 2025-05-22 16:21:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Training-Free Efficient Video Generation via Dynamic Token Carving はコメントを受け付けていません

T2I-ConBench: Text-to-Image Benchmark for Continual Post-training

要約

継続的なトレーニング後のテキストから画像間拡散モデルを適応させて、個別のモデルのコストを負担することなく新しいタスクを学習しますが、トレーニング後の素朴なトレーニングは、事前に守られた知識を忘れ、ゼロショットの構成性を損ないます。
標準化された評価プロトコルが存在しないと、継続的なトレーニング後の研究が関連する研究を妨げていることがわかります。
これに対処するために、テキスト間モデルの継続的なトレーニング後の統一ベンチマークであるT2i-Conbenchを紹介します。
T2I-Conbenchは、アイテムのカスタマイズとドメインの強化という2つの実用的なシナリオに焦点を当て、4つの次元を分析します。
包括的な評価のために、自動化されたメトリック、ヒトプレーファレンスモデリング、視覚言語QAを組み合わせています。
3つの現実的なタスクシーケンスにわたって10の代表的な方法をベンチマークし、すべての面で優れているアプローチはないことがわかります。
共同「Oracle」トレーニングでさえ、すべてのタスクで成功せず、クロスタスクの一般化は未解決のままです。
すべてのデータセット、コード、および評価ツールをリリースして、テキスト間モデルの継続的なトレーニング後の研究を加速します。

要約(オリジナル)

Continual post-training adapts a single text-to-image diffusion model to learn new tasks without incurring the cost of separate models, but naive post-training causes forgetting of pretrained knowledge and undermines zero-shot compositionality. We observe that the absence of a standardized evaluation protocol hampers related research for continual post-training. To address this, we introduce T2I-ConBench, a unified benchmark for continual post-training of text-to-image models. T2I-ConBench focuses on two practical scenarios, item customization and domain enhancement, and analyzes four dimensions: (1) retention of generality, (2) target-task performance, (3) catastrophic forgetting, and (4) cross-task generalization. It combines automated metrics, human-preference modeling, and vision-language QA for comprehensive assessment. We benchmark ten representative methods across three realistic task sequences and find that no approach excels on all fronts. Even joint ‘oracle’ training does not succeed for every task, and cross-task generalization remains unsolved. We release all datasets, code, and evaluation tools to accelerate research in continual post-training for text-to-image models.

arxiv情報

著者 Zhehao Huang,Yuhang Liu,Yixin Lou,Zhengbao He,Mingzhen He,Wenxing Zhou,Tao Li,Kehan Li,Zeyi Huang,Xiaolin Huang
発行日 2025-05-22 16:31:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG | T2I-ConBench: Text-to-Image Benchmark for Continual Post-training はコメントを受け付けていません

Tracking the Flight: Exploring a Computational Framework for Analyzing Escape Responses in Plains Zebra (Equus quagga)

要約

エステル研究は、ドローンの手頃な価格とアクセシビリティの高まりによりますます利益を得ており、これにより、細かい空間的および時間的スケールでの動物運動の高解像度映像の捕獲が可能になります。
ただし、そのような映像を分析することは、動物の動きをドローンの動きから分離するという技術的な課題を示しています。
わずかでない、画像登録や構造からの構造(SFM)などのコンピュータービジョン技術は実用的なソリューションを提供します。
自然保護論者の場合、ユーザーフレンドリーで、最小限のセットアップを必要とするオープンソースツールと、効率的なデータ解釈にはタイムリーな結果が特に価値があります。
この研究では、バイオイメージングベースの登録手法、SFMパイプライン、ハイブリッド補間法の3つのアプローチを評価します。
これらは、単一のドローンビデオで撮影された44 Plains Zebrasを含む録音されたエスケープイベントに適用します。
最良のパフォーマンスの方法を使用して、個々の軌道を抽出し、重要な行動パターンを特定します。脱出中のアライメントの増加(偏光)、停止する直前の間隔の短時間の拡大、およびグループの中心近くのより緊密な調整。
これらの洞察は、方法の有効性と、より大きなデータセットに拡大する可能性を強調し、集合的な動物行動のより広範な調査に貢献しています。

要約(オリジナル)

Ethological research increasingly benefits from the growing affordability and accessibility of drones, which enable the capture of high-resolution footage of animal movement at fine spatial and temporal scales. However, analyzing such footage presents the technical challenge of separating animal movement from drone motion. While non-trivial, computer vision techniques such as image registration and Structure-from-Motion (SfM) offer practical solutions. For conservationists, open-source tools that are user-friendly, require minimal setup, and deliver timely results are especially valuable for efficient data interpretation. This study evaluates three approaches: a bioimaging-based registration technique, an SfM pipeline, and a hybrid interpolation method. We apply these to a recorded escape event involving 44 plains zebras, captured in a single drone video. Using the best-performing method, we extract individual trajectories and identify key behavioral patterns: increased alignment (polarization) during escape, a brief widening of spacing just before stopping, and tighter coordination near the group’s center. These insights highlight the method’s effectiveness and its potential to scale to larger datasets, contributing to broader investigations of collective animal behavior.

arxiv情報

著者 Isla Duporge,Sofia Minano,Nikoloz Sirmpilatze,Igor Tatarnikov,Scott Wolf,Adam L. Tyson,Daniel Rubenstein
発行日 2025-05-22 16:36:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Tracking the Flight: Exploring a Computational Framework for Analyzing Escape Responses in Plains Zebra (Equus quagga) はコメントを受け付けていません

MindGYM: What Matters in Question Synthesis for Thinking-Centric Fine-Tuning?

要約

大規模なファンデーションモデルは、特に剛性テンプレートまたは群衆発表の命令データセットで監督されている場合、移転可能な構造化された思考能力を獲得する際の課題に直面しています。
以前のアプローチとは異なり、モデルが自己生成された認知誘導データを通じて進化できるようにする思考中心のデータ合成パラダイムに焦点を当てます。
質問統合の構造化されたスケーラブルなフレームワークであるMindGymを提案します。
(2)シードシングルホップの質問統合。多様なセマンティックタイプから原子質問を生成して、より広範な思考を促進する。
(3)より深い推論のためにQA種子に基づいて、より複雑なマルチホップの質問を構成するマルチホップQA合成に挑戦します。
詳細な分析によると、この方法で生成された合成データは、ベースラインソースと比較して平均品質が16.7%高く、67.91%低い品質の分散を達成し、高品質と自己完結型のデータの両方が効果的で思考志向の微調整に不可欠であることを強調しています。
MindGymは、6つの推論ベンチマークでのパフォーマンスを改善し、400のデータサンプルのみを使用してMathVisionで最大16%の利益を達成し、さまざまなモデルサイズとアーキテクチャにわたって一般化可能な改善を達成します。
MindGymは、人間の介入と資源の要求を最小限に抑えながら、大規模なモデル能力を改善する際の自己挑戦メカニズムの実行可能性を強調しています。
コードとデータは、内部推論能力によって駆動される自己進化の基礎モデルに関するデータ中心の研究を促進するためにリリースされます。

要約(オリジナル)

Large foundation models face challenges in acquiring transferable, structured thinking abilities, especially when supervised with rigid templates or crowd-annotated instruction datasets. Unlike prior approaches, we focus on a thinking-centric data synthesis paradigm that enables models to evolve through self-generated, cognitively guided data. We propose MindGYM, a structured and scalable framework for question synthesis, composed of: (1) Cognitive Thinking Process Injection, which infuses high-level reasoning objectives to shape the model’s synthesis behavior; (2) Seed Single-Hop Question Synthesis, generating atomic questions from diverse semantic types to encourage broader thinking; and (3) Challenging Multi-Hop QA Synthesis, composing more complex multi-hop questions based on QA seeds for deeper reasoning. Detailed analysis shows that synthetic data generated by our method achieves 16.7% higher average quality and 67.91% lower quality variance compared to baseline sources, highlighting that both high-quality and self-contained data are essential for effective, thinking-oriented fine-tuning. MindGYM improves performance on six reasoning benchmarks, achieving gains of up to 16% on MathVision using only 400 data samples, and generalizable improvements across different model sizes and architectures. MindGYM underscores the viability of self-challenging mechanisms in refining large model capabilities while minimizing human intervention and resource demands. Code and data are released to promote data-centric research into self-evolving foundation models driven by their internal reasoning capabilities.

arxiv情報

著者 Zhe Xu,Daoyuan Chen,Zhenqing Ling,Yaliang Li,Ying Shen
発行日 2025-05-22 16:47:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV | MindGYM: What Matters in Question Synthesis for Thinking-Centric Fine-Tuning? はコメントを受け付けていません

Remote Sensing Spatio-Temporal Vision-Language Models: A Comprehensive Survey

要約

多時代のリモートセンシング画像の解釈は、バイナリまたはセマンティックマスクを生成する以前の変更検出方法である地球の動的プロセスを監視するために重要です。
ビジョン言語モデル(VLM)の最近の進歩は、視覚的および言語的モダリティを融合させ、時空間的視覚言語の理解を可能にすることにより、新しいフロンティアを開きました。変化を認識するための空間的および時間的依存関係をキャプチャするだけでなく、時間画像のより豊かなインタラクティブなセマンティック分析を提供します(例えば、自然言語の記述と回答の記述的なキャプテンと回答を生成します。
この調査では、RS-STVLMSの最初の包括的なレビューを紹介します。
この調査では、初期のタスク固有モデルから強力な大手言語モデルを活用する最近の一般的な基礎モデルへのモデルの進化をカバーしています。
キャプションの変更、質問への回答の変更、接地の変更など、代表的なタスクの進捗について説明します。
さらに、これらのモデルの根底にある基本的なコンポーネントと主要なテクノロジーを体系的に分析し、フィールドを駆動したデータセットと評価メトリックを確認します。
共有された建築パターンを深く掘り下げてタスクレベルの洞察を統合することにより、私たちは、リモートセンシングの時空間的視覚言語の理解における将来の研究のための現在の成果とチャートを照らすことを目指しています。
https://github.com/chen-yang-liu/awesome-rs-patiotempolal-vlmsで関連する作品を追跡します

要約(オリジナル)

The interpretation of multi-temporal remote sensing imagery is critical for monitoring Earth’s dynamic processes-yet previous change detection methods, which produce binary or semantic masks, fall short of providing human-readable insights into changes. Recent advances in Vision-Language Models (VLMs) have opened a new frontier by fusing visual and linguistic modalities, enabling spatio-temporal vision-language understanding: models that not only capture spatial and temporal dependencies to recognize changes but also provide a richer interactive semantic analysis of temporal images (e.g., generate descriptive captions and answer natural-language queries). In this survey, we present the first comprehensive review of RS-STVLMs. The survey covers the evolution of models from early task-specific models to recent general foundation models that leverage powerful large language models. We discuss progress in representative tasks, such as change captioning, change question answering, and change grounding. Moreover, we systematically dissect the fundamental components and key technologies underlying these models, and review the datasets and evaluation metrics that have driven the field. By synthesizing task-level insights with a deep dive into shared architectural patterns, we aim to illuminate current achievements and chart promising directions for future research in spatio-temporal vision-language understanding for remote sensing. We will keep tracing related works at https://github.com/Chen-Yang-Liu/Awesome-RS-SpatioTemporal-VLMs

arxiv情報

著者 Chenyang Liu,Jiafan Zhang,Keyan Chen,Man Wang,Zhengxia Zou,Zhenwei Shi
発行日 2025-05-22 16:49:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Remote Sensing Spatio-Temporal Vision-Language Models: A Comprehensive Survey はコメントを受け付けていません

RealEngine: Simulating Autonomous Driving in Realistic Context

要約

運転シミュレーションは、制御された評価環境を提供することにより、信頼できる運転剤の開発において重要な役割を果たします。
意味のある評価を可能にするために、高品質の運転シミュレーターはいくつかの重要な要件を満たす必要があります。観測的不一致を最小限に抑えるための現実的なシーンレンダリングを備えたマルチモーダルセンシング機能(カメラやライダーなど)。
フリーフォームの軌道行動をサポートするための閉ループ評価。
徹底的な評価のための非常に多様なトラフィックシナリオ。
相互作用のダイナミクスをキャプチャするためのマルチエージェント協力。
手頃な価格とスケーラビリティを確保するための高い計算効率。
ただし、既存のシミュレーターとベンチマークは、これらの基本的な基準を包括的に満たすことができません。
このギャップを埋めるために、このペーパーでは、3Dシーンの再構築と新しいビュー合成技術を総合的に統合して、運転コンテキストで現実的で柔軟な閉ループシミュレーションを実現する新しい運転シミュレーションフレームワークであるRealEngineを紹介します。
現実世界のマルチモーダルセンサーデータを活用することにより、RealEngineはバックグラウンドシーンと前景交通参加者を個別に再構築し、柔軟なシーン構成を通じて非常に多様で現実的なトラフィックシナリオを可能にします。
シーンの再構築とビュー合成のこの相乗的な融合により、複数のセンサーのモダリティにわたってフォトリアリックなレンダリングが可能になり、知覚的な忠実度と幾何学的精度の両方が確保されます。
この環境に基づいて、RealEngineは、非反応性シミュレーション、安全テスト、およびマルチエージェント相互作用の3つの重要な運転シミュレーションカテゴリをサポートし、運転エージェントの実際のパフォーマンスを評価するための信頼できる包括的なベンチマークを集合的に形成します。

要約(オリジナル)

Driving simulation plays a crucial role in developing reliable driving agents by providing controlled, evaluative environments. To enable meaningful assessments, a high-quality driving simulator must satisfy several key requirements: multi-modal sensing capabilities (e.g., camera and LiDAR) with realistic scene rendering to minimize observational discrepancies; closed-loop evaluation to support free-form trajectory behaviors; highly diverse traffic scenarios for thorough evaluation; multi-agent cooperation to capture interaction dynamics; and high computational efficiency to ensure affordability and scalability. However, existing simulators and benchmarks fail to comprehensively meet these fundamental criteria. To bridge this gap, this paper introduces RealEngine, a novel driving simulation framework that holistically integrates 3D scene reconstruction and novel view synthesis techniques to achieve realistic and flexible closed-loop simulation in the driving context. By leveraging real-world multi-modal sensor data, RealEngine reconstructs background scenes and foreground traffic participants separately, allowing for highly diverse and realistic traffic scenarios through flexible scene composition. This synergistic fusion of scene reconstruction and view synthesis enables photorealistic rendering across multiple sensor modalities, ensuring both perceptual fidelity and geometric accuracy. Building upon this environment, RealEngine supports three essential driving simulation categories: non-reactive simulation, safety testing, and multi-agent interaction, collectively forming a reliable and comprehensive benchmark for evaluating the real-world performance of driving agents.

arxiv情報

著者 Junzhe Jiang,Nan Song,Jingyu Li,Xiatian Zhu,Li Zhang
発行日 2025-05-22 17:01:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | RealEngine: Simulating Autonomous Driving in Realistic Context はコメントを受け付けていません

DetailMaster: Can Your Text-to-Image Model Handle Long Prompts?

要約

最近のテキストからイメージ(T2I)モデルは、簡単な説明から画像を合成する際の印象的な機能を示していますが、プロのアプリケーションで必要な長い詳細集約的なプロンプトに直面した場合、パフォーマンスは大幅に低下します。
T2Iモデルの系統的能力を評価するために特別に設計された最初の包括的なベンチマークである詳細マスターを提示します。複雑な構成要件を含む拡張されたテキスト入力を処理します。
ベンチマークでは、文字属性、構造化された文字位置、多次元シーン属性、および明示的な空間/インタラクティブな関係の4つの重要な評価ディメンションを紹介します。
ベンチマークは、平均284.89トークンの長くて詳細に富むプロンプトで構成され、高品質は専門家のアノテーターによって検証されています。
7つの汎用と5つの長期にわたる最適化されたT2Iモデルでの評価は、重要なパフォーマンスの制限を明らかにします。最先端のモデルは、属性結合や空間推論などの主要な次元でわずか50%の精度を達成しますが、プロデュースのパフォーマンスの分解として進行性のパフォーマンスの分解を示すすべてのモデルが増加します。
私たちの分析は、構造的理解と詳細な過負荷処理の全身障害を強調し、構成推論を強化したアーキテクチャの将来の研究を動機付けています。
データセット、データキュレーションコード、および評価ツールをオープンソースして、詳細に富むT2I生成を進め、専用のベンチマークがないために実行不可能な幅広いアプリケーションを有効にします。

要約(オリジナル)

While recent text-to-image (T2I) models show impressive capabilities in synthesizing images from brief descriptions, their performance significantly degrades when confronted with long, detail-intensive prompts required in professional applications. We present DetailMaster, the first comprehensive benchmark specifically designed to evaluate T2I models’ systematical abilities to handle extended textual inputs that contain complex compositional requirements. Our benchmark introduces four critical evaluation dimensions: Character Attributes, Structured Character Locations, Multi-Dimensional Scene Attributes, and Explicit Spatial/Interactive Relationships. The benchmark comprises long and detail-rich prompts averaging 284.89 tokens, with high quality validated by expert annotators. Evaluation on 7 general-purpose and 5 long-prompt-optimized T2I models reveals critical performance limitations: state-of-the-art models achieve merely ~50% accuracy in key dimensions like attribute binding and spatial reasoning, while all models showing progressive performance degradation as prompt length increases. Our analysis highlights systemic failures in structural comprehension and detail overload handling, motivating future research into architectures with enhanced compositional reasoning. We open-source the dataset, data curation code, and evaluation tools to advance detail-rich T2I generation and enable broad applications that would otherwise be infeasible due to the lack of a dedicated benchmark.

arxiv情報

著者 Qirui Jiao,Daoyuan Chen,Yilun Huang,Xika Lin,Ying Shen,Yaliang Li
発行日 2025-05-22 17:11:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | DetailMaster: Can Your Text-to-Image Model Handle Long Prompts? はコメントを受け付けていません

Backdoor Cleaning without External Guidance in MLLM Fine-tuning

要約

マルチモーダル大手言語モデル(MLLMS)は、ユーザーがサビされたデータセットが汎用モデルをダウンストリームタスクに適合させる、微調整されたサービス(FTAAS)設定でますます展開されています。
ただし、この柔軟性は、悪意のある微調整が最小限の労力でバックドアをMLLMにインプラントすることができるため、深刻なセキュリティリスクをもたらします。
この論文では、バックドアトリガーが、非セマンチックな領域に異常な注意集中を引き起こすことにより、クロスモーダル処理を体系的に破壊することを観察します。
この洞察に基づいて、私たちはあなたの目(BYE)を信じています。それは、バックドアサンプルを識別およびフィルタリングするために、注意エントロピーパターンを自己補助信号として活用するデータフィルタリングフレームワークです。
さようならは、3段階のパイプラインを介して動作します。(1)微調整されたモデルを使用して注意マップを抽出し、(2)バイモーダル分離を介してエントロピースコアを計算し、敏感な層をプロファイリングし、(3)監視されていないクラスタリングを実行して疑わしいサンプルを除去します。
以前の防御とは異なり、Byeはクリーンな監督、補助ラベル、またはモデルの変更を排除しません。
さまざまなデータセット、モデル、多様なトリガータイプにわたる広範な実験は、Byeの有効性を検証します。クリーンタスクのパフォーマンスを維持しながら、ゼロに近い攻撃成功率を達成し、MLLMのバックドアの脅威に対する堅牢で一般化可能なソリューションを提供します。

要約(オリジナル)

Multimodal Large Language Models (MLLMs) are increasingly deployed in fine-tuning-as-a-service (FTaaS) settings, where user-submitted datasets adapt general-purpose models to downstream tasks. This flexibility, however, introduces serious security risks, as malicious fine-tuning can implant backdoors into MLLMs with minimal effort. In this paper, we observe that backdoor triggers systematically disrupt cross-modal processing by causing abnormal attention concentration on non-semantic regions–a phenomenon we term attention collapse. Based on this insight, we propose Believe Your Eyes (BYE), a data filtering framework that leverages attention entropy patterns as self-supervised signals to identify and filter backdoor samples. BYE operates via a three-stage pipeline: (1) extracting attention maps using the fine-tuned model, (2) computing entropy scores and profiling sensitive layers via bimodal separation, and (3) performing unsupervised clustering to remove suspicious samples. Unlike prior defenses, BYE equires no clean supervision, auxiliary labels, or model modifications. Extensive experiments across various datasets, models, and diverse trigger types validate BYE’s effectiveness: it achieves near-zero attack success rates while maintaining clean-task performance, offering a robust and generalizable solution against backdoor threats in MLLMs.

arxiv情報

著者 Xuankun Rong,Wenke Huang,Jian Liang,Jinhe Bi,Xun Xiao,Yiming Li,Bo Du,Mang Ye
発行日 2025-05-22 17:11:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CR, cs.CV | Backdoor Cleaning without External Guidance in MLLM Fine-tuning はコメントを受け付けていません

L2RDaS: Synthesizing 4D Radar Tensors for Model Generalization via Dataset Expansion

要約

4次元(4D)レーダーは、有害な気象条件下での堅牢性により、知覚タスクの自律運転でますます採用されています。
4Dレーダーデータに固有の空間情報をより適切に活用するために、最近の深い学習方法は、スパースポイントクラウドの使用から4Dレーダーテンソルに移行しました。
ただし、公開されている4Dレーダーテンソルデータセットの不足により、多様な運転シナリオ全体でモデルの一般化が制限されます。
以前の方法では、レーダーデータを合成することでこれに対処しましたが、出力は4Dレーダーの特徴的な空間情報を完全に活用しませんでした。
これらの制限を克服するために、既存の自律運転データセットで利用可能なLIDARデータからの空間的に有益な4Dレーダーテンソルを合成するフレームワークであるLidar-to-4Dレーダーデータ合成(L2RDA)を提案します。
L2RDASは、変更されたU-NETアーキテクチャを統合して、空間情報とオブジェクト情報サプリメント(OBIS)モジュールを効果的にキャプチャして、反射の忠実度を高めます。
このフレームワークにより、追加のセンサーの展開やデータ収集なしで、多様な運転シナリオ全体でレーダーテンソルを合成することができます。
L2RDAは、合成レーダーテンソルで実際のデータセットを拡張することによりモデルの一般化を改善し、3つの検出モデル全体で$ {{ap} _ {bev} _} $ {{ap} _ {3d}} $ $で平均4.25 \%と2.87 \%を達成します。
さらに、L2RDASは、注釈付きオブジェクトをLIDARデータに埋め込み、レーダーテンソルに合成することにより、グラウンドトゥルースの増強(GT-8月)をサポートし、$ {ap} _ {bev}}}} $ 4.03 \%{ap {ap}}}}}}}}}}}}}}}} $ 4.03の平均増加をもたらします。
実装はhttps://github.com/kaist-avelab/k-radarで入手できます。

要約(オリジナル)

4-dimensional (4D) radar is increasingly adopted in autonomous driving for perception tasks, owing to its robustness under adverse weather conditions. To better utilize the spatial information inherent in 4D radar data, recent deep learning methods have transitioned from using sparse point cloud to 4D radar tensors. However, the scarcity of publicly available 4D radar tensor datasets limits model generalization across diverse driving scenarios. Previous methods addressed this by synthesizing radar data, but the outputs did not fully exploit the spatial information characteristic of 4D radar. To overcome these limitations, we propose LiDAR-to-4D radar data synthesis (L2RDaS), a framework that synthesizes spatially informative 4D radar tensors from LiDAR data available in existing autonomous driving datasets. L2RDaS integrates a modified U-Net architecture to effectively capture spatial information and an object information supplement (OBIS) module to enhance reflection fidelity. This framework enables the synthesis of radar tensors across diverse driving scenarios without additional sensor deployment or data collection. L2RDaS improves model generalization by expanding real datasets with synthetic radar tensors, achieving an average increase of 4.25\% in ${{AP}_{BEV}}$ and 2.87\% in ${{AP}_{3D}}$ across three detection models. Additionally, L2RDaS supports ground-truth augmentation (GT-Aug) by embedding annotated objects into LiDAR data and synthesizing them into radar tensors, resulting in further average increases of 3.75\% in ${{AP}_{BEV}}$ and 4.03\% in ${{AP}_{3D}}$. The implementation will be available at https://github.com/kaist-avelab/K-Radar.

arxiv情報

著者 Woo-Jin Jung,Dong-Hee Paek,Seung-Hyun Kong
発行日 2025-05-22 17:12:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, eess.IV | L2RDaS: Synthesizing 4D Radar Tensors for Model Generalization via Dataset Expansion はコメントを受け付けていません