Uncertainty-Guided Coarse-to-Fine Tumor Segmentation with Anatomy-Aware Post-Processing

要約

胸部コンピューター断層撮影(CT)における信頼できる腫瘍のセグメンテーションは、境界のあいまいさ、クラスの不均衡、解剖学的変動のために依然として困難です。
解剖学的に認識されている後処理によって強化された、全身腫瘍の局在と洗練された領域(ROI)セグメンテーションを組み合わせた、不確実な誘導型の粗からファインのセグメンテーションフレームワークを提案します。
第1段のモデルは、粗い予測を生成し、その後、肺のオーバーラップ、肺表面への近接性、およびコンポーネントサイズに基づいた解剖学的に情報に基づいたフィルタリングが続きます。
結果として得られるROIは、不確実性を意識した損失関数で訓練された第2段階モデル​​によってセグメント化され、あいまいな領域の精度と境界のキャリブレーションを改善します。
プライベートおよびパブリックデータセットでの実験は、サイコロとハウドルフのスコアの改善を示し、誤検知が少なく、空間解釈が強化されています。
これらの結果は、堅牢で臨床的に意味のある腫瘍描写のためのカスケードセグメンテーションパイプラインにおける不確実性モデリングと解剖学的前層を組み合わせることの価値を強調しています。
Orlando Datasetでは、私たちのフレームワークはSwin Unetr Diceを0.4690から0.6447に改善しました。
偽の成分の減少は、セグメンテーションの利益と強く相関しており、解剖学的に情報に基づいた後処理の価値を強調しています。

要約(オリジナル)

Reliable tumor segmentation in thoracic computed tomography (CT) remains challenging due to boundary ambiguity, class imbalance, and anatomical variability. We propose an uncertainty-guided, coarse-to-fine segmentation framework that combines full-volume tumor localization with refined region-of-interest (ROI) segmentation, enhanced by anatomically aware post-processing. The first-stage model generates a coarse prediction, followed by anatomically informed filtering based on lung overlap, proximity to lung surfaces, and component size. The resulting ROIs are segmented by a second-stage model trained with uncertainty-aware loss functions to improve accuracy and boundary calibration in ambiguous regions. Experiments on private and public datasets demonstrate improvements in Dice and Hausdorff scores, with fewer false positives and enhanced spatial interpretability. These results highlight the value of combining uncertainty modeling and anatomical priors in cascaded segmentation pipelines for robust and clinically meaningful tumor delineation. On the Orlando dataset, our framework improved Swin UNETR Dice from 0.4690 to 0.6447. Reduction in spurious components was strongly correlated with segmentation gains, underscoring the value of anatomically informed post-processing.

arxiv情報

著者 Ilkin Sevgi Isler,David Mohaisen,Curtis Lisle,Damla Turgut,Ulas Bagci
発行日 2025-04-16 16:08:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | Uncertainty-Guided Coarse-to-Fine Tumor Segmentation with Anatomy-Aware Post-Processing はコメントを受け付けていません

Decentralized Vehicle Coordination: The Berkeley DeepDrive Drone Dataset and Consensus-Based Models

要約

特に人口密度の高い発展途上国における道路のかなりの部分には、明示的に定義された公道規則がありません。
これらの構造的な道路は、効率的で安全なナビゲーションが衝突回避のための分散型の人間の調整を理解することに依存している自律的な車両モーション計画に大きな課題をもたらします。
しばしば「ソーシャルドライビングエチケット」と呼ばれるこの調整は、限られたオープンソースの経験的データと適切なモデリングフレームワークのために、既知のままです。
この論文では、これらの構造的な環境でモーション計画を研究するために設計された新しいデータセットとモデリングフレームワークを紹介します。
データセットには、代表的なシナリオの20の空中ビデオ、車両検出モデルのトレーニング用の画像データセット、および車両の軌道推定用の開発キットが含まれています。
コンセンサスベースのモデリングアプローチは、データセットで観察された優先順位の出現を効果的に説明できるため、分散型衝突回避計画のための実行可能なフレームワークであることを実証します。

要約(オリジナル)

A significant portion of roads, particularly in densely populated developing countries, lacks explicitly defined right-of-way rules. These understructured roads pose substantial challenges for autonomous vehicle motion planning, where efficient and safe navigation relies on understanding decentralized human coordination for collision avoidance. This coordination, often termed ‘social driving etiquette,’ remains underexplored due to limited open-source empirical data and suitable modeling frameworks. In this paper, we present a novel dataset and modeling framework designed to study motion planning in these understructured environments. The dataset includes 20 aerial videos of representative scenarios, an image dataset for training vehicle detection models, and a development kit for vehicle trajectory estimation. We demonstrate that a consensus-based modeling approach can effectively explain the emergence of priority orders observed in our dataset, and is therefore a viable framework for decentralized collision avoidance planning.

arxiv情報

著者 Fangyu Wu,Dequan Wang,Minjune Hwang,Chenhui Hao,Jiawei Lu,Jiamu Zhang,Christopher Chou,Trevor Darrell,Alexandre Bayen
発行日 2025-04-16 16:12:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | Decentralized Vehicle Coordination: The Berkeley DeepDrive Drone Dataset and Consensus-Based Models はコメントを受け付けていません

Coding-Prior Guided Diffusion Network for Video Deblurring

要約

最近のビデオ脱硫化方法は大幅に進歩していますが、多くの場合、2つの貴重な事前情報を見落としています。(1)モーションベクトル(MV)とビデオコーデックのコード残差(CRS)は、効率的なフレーム間アライメントキューを提供します。
CPGDNETを提示します。CPGDNETは、コーディングプライアーと高品質の拡散プライエアの両方を効果的に活用する新しい2段階のフレームワークです。
まず、コーディング優先特徴の伝播(CPFP)モジュールは、効率的なフレームアライメントとCRSにMVSを使用して注意マスクを生成し、動きの不正確さとテクスチャのバリエーションに対処します。
第二に、コーディング優先制御の生成(CPC)モジュールネットワークは、コーディングプリエを前処理された拡散モデルに統合し、重要な領域を強化し、現実的な詳細を合成するように導きます。
実験により、私たちの方法は、IQAメトリックの最大30%の改善で最先端の知覚品質を達成することを示しています。
コードとcodingprior-augmentedデータセットの両方がオープンソースをかけます。

要約(オリジナル)

While recent video deblurring methods have advanced significantly, they often overlook two valuable prior information: (1) motion vectors (MVs) and coding residuals (CRs) from video codecs, which provide efficient inter-frame alignment cues, and (2) the rich real-world knowledge embedded in pre-trained diffusion generative models. We present CPGDNet, a novel two-stage framework that effectively leverages both coding priors and generative diffusion priors for high-quality deblurring. First, our coding-prior feature propagation (CPFP) module utilizes MVs for efficient frame alignment and CRs to generate attention masks, addressing motion inaccuracies and texture variations. Second, a coding-prior controlled generation (CPC) module network integrates coding priors into a pretrained diffusion model, guiding it to enhance critical regions and synthesize realistic details. Experiments demonstrate our method achieves state-of-the-art perceptual quality with up to 30% improvement in IQA metrics. Both the code and the codingprior-augmented dataset will be open-sourced.

arxiv情報

著者 Yike Liu,Jianhui Zhang,Haipeng Li,Shuaicheng Liu,Bing Zeng
発行日 2025-04-16 16:14:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Coding-Prior Guided Diffusion Network for Video Deblurring はコメントを受け付けていません

KMM: Key Frame Mask Mamba for Extended Motion Generation

要約

人間のモーション生成は、生成的コンピュータービジョンの研究のカットエッジエリアであり、ビデオの作成、ゲーム開発、ロボット操作に有望なアプリケーションを備えています。
最近のMambaアーキテクチャは、長くて複雑なシーケンスを効率的にモデル化することで有望な結果を示していますが、2つの重要な課題が残っています。まず、暗黙のメモリの限られた容量が記憶崩壊につながるため、Mambaを拡張モーション生成に直接適用することは効果がありません。
第二に、マンバはトランスと比較してマルチモーダル融合に苦労し、テキストクエリとの整合性、しばしば混乱を招く方向(左または右)、または長いテキストクエリの一部を省略します。
これらの課題に対処するために、私たちの論文は3つの重要な貢献を示しています。まず、モーションセグメントの主要なアクションにMAMBAの焦点を強化するように設計されたキーフレームマスキングモデリングを特徴とする新しいアーキテクチャであるKMMを紹介します。
このアプローチは、メモリ減衰の問題に対処し、SSMで戦略的フレームレベルのマスキングをカスタマイズする際の先駆的な方法を表します。
さらに、MAMBAのマルチモーダル融合問題に対処し、モーションテキストアライメントを改善するための対照的な学習パラダイムを設計しました。
最後に、以前の方法と比較して、FIDで57%以上のFIDおよび70%のパラメーターを減らして、最先端のパフォーマンスを達成し、頼りになるデータセットで広範な実験を実施しました。
プロジェクトWebサイト:https://steve-zeyu-zhang.github.io/kmmを参照してください

要約(オリジナル)

Human motion generation is a cut-edge area of research in generative computer vision, with promising applications in video creation, game development, and robotic manipulation. The recent Mamba architecture shows promising results in efficiently modeling long and complex sequences, yet two significant challenges remain: Firstly, directly applying Mamba to extended motion generation is ineffective, as the limited capacity of the implicit memory leads to memory decay. Secondly, Mamba struggles with multimodal fusion compared to Transformers, and lack alignment with textual queries, often confusing directions (left or right) or omitting parts of longer text queries. To address these challenges, our paper presents three key contributions: Firstly, we introduce KMM, a novel architecture featuring Key frame Masking Modeling, designed to enhance Mamba’s focus on key actions in motion segments. This approach addresses the memory decay problem and represents a pioneering method in customizing strategic frame-level masking in SSMs. Additionally, we designed a contrastive learning paradigm for addressing the multimodal fusion problem in Mamba and improving the motion-text alignment. Finally, we conducted extensive experiments on the go-to dataset, BABEL, achieving state-of-the-art performance with a reduction of more than 57% in FID and 70% parameters compared to previous state-of-the-art methods. See project website: https://steve-zeyu-zhang.github.io/KMM

arxiv情報

著者 Zeyu Zhang,Hang Gao,Akide Liu,Qi Chen,Feng Chen,Yiran Wang,Danning Li,Rui Zhao,Zhenming Li,Zhongwen Zhou,Hao Tang,Bohan Zhuang
発行日 2025-04-16 16:45:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | KMM: Key Frame Mask Mamba for Extended Motion Generation はコメントを受け付けていません

Cobra: Efficient Line Art COlorization with BRoAder References

要約

コミック生産業界では、高精度、効率、コンテキストの一貫性、柔軟な制御を備えた参照ベースのラインアートの色付けが必要です。
コミックページには、多くの場合、多様なキャラクター、オブジェクト、背景が含まれているため、着色プロセスが複雑になります。
画像生成のための拡散モデルの進歩にもかかわらず、ラインアートの色付けへの応用は限られたままであり、広範な参照画像、時間のかかる推論、柔軟な制御に関連する課題に直面しています。
ラインアートの色付けの品質に関する広範なコンテキストイメージガイダンスの必要性を調査します。
これらの課題に対処するために、色のヒントをサポートし、低遅延を維持しながら200を超える参照画像を利用する効率的で多用途の方法であるCobraを紹介します。
Cobraの中心は、因果的なスパースDITアーキテクチャであり、特別に設計された位置エンコーディング、因果的スパースの注意、キー価値のキャッシュを活用して、長いコンテキスト参照を効果的に管理し、カラーアイデンティティの一貫性を確保します。
結果は、COBRAが広範な文脈的参照を通じて正確なラインアートの色付けを達成し、推論の速度と相互作用を大幅に向上させ、それによって重要な産業的要求を満たすことを示しています。
プロジェクトページでコードとモデルをリリースします:https://zhuang2002.github.io/cobra/。

要約(オリジナル)

The comic production industry requires reference-based line art colorization with high accuracy, efficiency, contextual consistency, and flexible control. A comic page often involves diverse characters, objects, and backgrounds, which complicates the coloring process. Despite advancements in diffusion models for image generation, their application in line art colorization remains limited, facing challenges related to handling extensive reference images, time-consuming inference, and flexible control. We investigate the necessity of extensive contextual image guidance on the quality of line art colorization. To address these challenges, we introduce Cobra, an efficient and versatile method that supports color hints and utilizes over 200 reference images while maintaining low latency. Central to Cobra is a Causal Sparse DiT architecture, which leverages specially designed positional encodings, causal sparse attention, and Key-Value Cache to effectively manage long-context references and ensure color identity consistency. Results demonstrate that Cobra achieves accurate line art colorization through extensive contextual reference, significantly enhancing inference speed and interactivity, thereby meeting critical industrial demands. We release our codes and models on our project page: https://zhuang2002.github.io/Cobra/.

arxiv情報

著者 Junhao Zhuang,Lingen Li,Xuan Ju,Zhaoyang Zhang,Chun Yuan,Ying Shan
発行日 2025-04-16 16:45:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Cobra: Efficient Line Art COlorization with BRoAder References はコメントを受け付けていません

SIDME: Self-supervised Image Demoiréing via Masked Encoder-Decoder Reconstruction

要約

オブジェクトライト信号とカメラサンプリング周波数の間のエイリアシングに起因するMoir \ ‘Eパターンは、しばしばキャプチャ中に画質を分解します。
従来のデモワール\ ‘eingメソッドは、一般に、さまざまなカラーチャネルのユニークな信号特性を無視して、処理とトレーニングのために画像全体として扱われています。
さらに、Moir \ ‘eパターン生成のランダム性と変動性は、実際のデータに適用された場合の既存の方法の堅牢性に課題をもたらします。
これらの問題に対処するために、このペーパーでは、Moir \ ‘eパターンを効果的に処理することにより高品質の視覚画像を生成するように設計された新しいモデルであるSidme(Masked Encoder-Decoder Reconstructionを介して自己監視画像デモア\’ Eing)を紹介します。
SIDMEは、マスクされたエンコーダーデコーダーアーキテクチャと自己監視学習と組み合わさって、カメラサンプリング周波数の固有の特性を使用してモデルが画像を再構築できるようにします。
重要なイノベーションは、ランダムなマスクされた画像再構成です。これは、エンコーダデコーダー構造を使用して再構成タスクを処理することです。
さらに、カメラサンプリングのグリーンチャネルは赤と青のチャネルと比較してサンプリング周波数が高いため、特殊な自己監視の損失関数は、トレーニングの効率と有効性を改善するために設計されています。
モデルの一般化能力を確保するために、実際の条件を密接に模倣するデータセットを作成するために、自己監視されたMoir \ ‘eイメージ生成方法が開発されました。
広範な実験は、SIDMEが実際のMoir \ ‘eパターンデータの処理において既存の方法を上回り、その優れた一般化パフォーマンスと堅牢性を示すことを示しています。

要約(オリジナル)

Moir\’e patterns, resulting from aliasing between object light signals and camera sampling frequencies, often degrade image quality during capture. Traditional demoir\’eing methods have generally treated images as a whole for processing and training, neglecting the unique signal characteristics of different color channels. Moreover, the randomness and variability of moir\’e pattern generation pose challenges to the robustness of existing methods when applied to real-world data. To address these issues, this paper presents SIDME (Self-supervised Image Demoir\’eing via Masked Encoder-Decoder Reconstruction), a novel model designed to generate high-quality visual images by effectively processing moir\’e patterns. SIDME combines a masked encoder-decoder architecture with self-supervised learning, allowing the model to reconstruct images using the inherent properties of camera sampling frequencies. A key innovation is the random masked image reconstructor, which utilizes an encoder-decoder structure to handle the reconstruction task. Furthermore, since the green channel in camera sampling has a higher sampling frequency compared to red and blue channels, a specialized self-supervised loss function is designed to improve the training efficiency and effectiveness. To ensure the generalization ability of the model, a self-supervised moir\’e image generation method has been developed to produce a dataset that closely mimics real-world conditions. Extensive experiments demonstrate that SIDME outperforms existing methods in processing real moir\’e pattern data, showing its superior generalization performance and robustness.

arxiv情報

著者 Xia Wang,Haiyang Sun,Tiantian Cao,Yueying Sun,Min Feng
発行日 2025-04-16 16:50:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, eess.IV | SIDME: Self-supervised Image Demoiréing via Masked Encoder-Decoder Reconstruction はコメントを受け付けていません

Comparative Evaluation of Radiomics and Deep Learning Models for Disease Detection in Chest Radiography

要約

医療イメージングにおける人工知能(AI)の適用は、診断慣行に革命をもたらし、放射線データの高度な分析と解釈を可能にしました。
この研究では、胸部X線撮影における疾患検出のための放射性および深い学習ベースのアプローチの包括的な評価を提示し、Covid-19、肺不透明度、およびウイルス肺炎に焦点を当てています。
深い学習モデル、特に畳み込みニューラルネットワーク(CNNS)と視覚変圧器(VITS)は、画像データから直接学習し、ラジオミクスベースのモデルは定量的特徴を抽出および分析し、データ制限シナリオの利点を提供する可能性があります。
この研究では、決定ツリー、勾配ブースト、ランダムフォレスト、サポートベクターマシン(SVM)、および最先端のコンピュータービジョンディープラーニングアーキテクチャと対戦するためのさまざまなAIモデルの診断精度とさまざまなAIモデルの堅牢性を、さまざまなAIモデルの堅牢性を系統的に比較します。
さまざまなサンプルサイズにわたるパフォーマンスメトリックは、各モデルの有効性に対する洞察を明らかにし、特定のAIアプローチが診断機能の強化を提供するコンテキストを強調します。
結果は、特にタイムリーで信頼できる診断が重要である自動化されたハイスループット環境で、臨床診療におけるAI駆動型の診断ツールの統合を知らせることを目的としています。
この比較研究では、臨床的および運用上のニーズに基づいてAIモデルの選択に関するガイダンスを確立し、本質的なギャップに対処します。

要約(オリジナル)

The application of artificial intelligence (AI) in medical imaging has revolutionized diagnostic practices, enabling advanced analysis and interpretation of radiological data. This study presents a comprehensive evaluation of radiomics-based and deep learning-based approaches for disease detection in chest radiography, focusing on COVID-19, lung opacity, and viral pneumonia. While deep learning models, particularly convolutional neural networks (CNNs) and vision transformers (ViTs), learn directly from image data, radiomics-based models extract and analyze quantitative features, potentially providing advantages in data-limited scenarios. This study systematically compares the diagnostic accuracy and robustness of various AI models, including Decision Trees, Gradient Boosting, Random Forests, Support Vector Machines (SVM), and Multi-Layer Perceptrons (MLP) for radiomics, against state-of-the-art computer vision deep learning architectures. Performance metrics across varying sample sizes reveal insights into each model’s efficacy, highlighting the contexts in which specific AI approaches may offer enhanced diagnostic capabilities. The results aim to inform the integration of AI-driven diagnostic tools in clinical practice, particularly in automated and high-throughput environments where timely, reliable diagnosis is critical. This comparative study addresses an essential gap, establishing guidance for the selection of AI models based on clinical and operational needs.

arxiv情報

著者 Zhijin He,Alan B. McMillan
発行日 2025-04-16 16:54:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, eess.IV | Comparative Evaluation of Radiomics and Deep Learning Models for Disease Detection in Chest Radiography はコメントを受け付けていません

Human Aligned Compression for Robust Models

要約

画像モデルに対する敵対的な攻撃は、誤った予測を引き起こす知覚できない摂動を導入することにより、システムの堅牢性を脅かします。
さまざまな品質レベルで従来のJPEGと2つの学習モデル(HificとElic)を比較して、人間に合った学習された喪失圧縮を防御メカニズムとして調査します。
Imagenet Subsetでの実験は、敵対的なノイズを除去しながら意味的に意味のあるコンテンツを保存することにより、学習した圧縮方法がJPEG、特に視覚変圧器アーキテクチャよりも優れていることを示しています。
攻撃者が防御にアクセスできるホワイトボックス設定でさえ、これらの方法は実質的な効果を維持します。
また、圧縮/減圧のラウンドを適用する順次圧縮が、分類のパフォーマンスを維持しながら、防御効果を重要に促進することを示しています。
私たちの調査結果は、人間に合った圧縮が、人間と機械の理解に最も関連する画像機能を保護する効果的で計算効率の良い防御を提供することを明らかにしています。
敵対的な脅威に対するモデルの堅牢性を改善するための実用的なアプローチを提供します。

要約(オリジナル)

Adversarial attacks on image models threaten system robustness by introducing imperceptible perturbations that cause incorrect predictions. We investigate human-aligned learned lossy compression as a defense mechanism, comparing two learned models (HiFiC and ELIC) against traditional JPEG across various quality levels. Our experiments on ImageNet subsets demonstrate that learned compression methods outperform JPEG, particularly for Vision Transformer architectures, by preserving semantically meaningful content while removing adversarial noise. Even in white-box settings where attackers can access the defense, these methods maintain substantial effectiveness. We also show that sequential compression–applying rounds of compression/decompression–significantly enhances defense efficacy while maintaining classification performance. Our findings reveal that human-aligned compression provides an effective, computationally efficient defense that protects the image features most relevant to human and machine understanding. It offers a practical approach to improving model robustness against adversarial threats.

arxiv情報

著者 Samuel Räber,Andreas Plesner,Till Aczel,Roger Wattenhofer
発行日 2025-04-16 17:05:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, eess.IV | Human Aligned Compression for Robust Models はコメントを受け付けていません

FLIP Reasoning Challenge

要約

過去数年間、人工知能(AI)の進歩は、AIが画像の分類やテキストライティングなどの多くの認識や生成タスクをどのように解決できるかを実証してきましたが、推論は依然として課題です。
このペーパーでは、Idenaブロックチェーン上の人間の検証タスクに基づいてAI推論機能を評価するためのベンチマークであるFlip Datasetを紹介します。
フリップの課題は、ユーザーに4つの画像の2つの注文を提示し、論理的に一貫したエグゼーションを識別する必要があります。
順次推論、視覚的なストーリーテリング、および常識を強調することにより、FlipはマルチモーダルAIシステムのユニークなテストベッドを提供します。
私たちの実験は、最先端のモデルを評価し、ビジョン言語モデル(VLM)と大規模な言語モデル(LLM)の両方を活用します。
結果は、95.3%の人間の性能と比較して、ゼロショット設定で、最高のオープンソースとクローズドソースのモデルでさえ、それぞれゼロショット設定で75.5%と77.9%の最大精度を達成することを明らかにしています。
キャプションモデルは、画像のテキストの説明を提供することにより推論モデルを支援し、RAW画像を直接使用する場合よりも良い結果をもたらします。Gemini1.5Proの69.6%対75.2%。
アンサンブルの15モデルからの予測を組み合わせると、精度が85.2%に増加します。
これらの調査結果は、既存の推論モデルの制限と、Flipなどの堅牢なマルチモーダルベンチマークの必要性を強調しています。
完全なコードベースとデータセットは、https://github.com/aplesner/flip-rasining-challengeで入手できます。

要約(オリジナル)

Over the past years, advances in artificial intelligence (AI) have demonstrated how AI can solve many perception and generation tasks, such as image classification and text writing, yet reasoning remains a challenge. This paper introduces the FLIP dataset, a benchmark for evaluating AI reasoning capabilities based on human verification tasks on the Idena blockchain. FLIP challenges present users with two orderings of 4 images, requiring them to identify the logically coherent one. By emphasizing sequential reasoning, visual storytelling, and common sense, FLIP provides a unique testbed for multimodal AI systems. Our experiments evaluate state-of-the-art models, leveraging both vision-language models (VLMs) and large language models (LLMs). Results reveal that even the best open-sourced and closed-sourced models achieve maximum accuracies of 75.5% and 77.9%, respectively, in zero-shot settings, compared to human performance of 95.3%. Captioning models aid reasoning models by providing text descriptions of images, yielding better results than when using the raw images directly, 69.6% vs. 75.2% for Gemini 1.5 Pro. Combining the predictions from 15 models in an ensemble increases the accuracy to 85.2%. These findings highlight the limitations of existing reasoning models and the need for robust multimodal benchmarks like FLIP. The full codebase and dataset will be available at https://github.com/aplesner/FLIP-Reasoning-Challenge.

arxiv情報

著者 Andreas Plesner,Turlan Kuzhagaliyev,Roger Wattenhofer
発行日 2025-04-16 17:07:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG | FLIP Reasoning Challenge はコメントを受け付けていません

VGDFR: Diffusion-based Video Generation with Dynamic Latent Frame Rate

要約

拡散トランス(DIT)ベースの生成モデルは、ビデオ生成で顕著な成功を収めています。
ただし、それらの固有の計算需要は、効率性の大きな課題をもたらします。
この論文では、現実世界のビデオの固有の時間的不均一性を活用し、ビデオが動的な情報密度を示すことを観察します。高モーションセグメントは静的シーンよりも詳細な保存を必要とします。
この時間的不均一性に触発されて、私たちはVGDFRを提案します。これは、動的潜在フレームレートを備えた拡散ベースのビデオ生成のためのトレーニングなしのアプローチです。
VGDFRは、高周波セグメントに少ないトークンを使用しながら、高周波セグメントで詳細を維持しながら、潜在スペース含有量の動き周波数に基づいて潜在空間の要素の数を適応的に調整します。
具体的には、主要な貢献は次のとおりです。(1)ビデオセグメントのフレームレートを適応的に割り当てるDITビデオ生成の動的なフレームレートスケジューラ。
(2)低解像度の空間で冗長性を統合する前に、潜在表現を除去されたカウンターパートと整列させるための新しい潜在スペースの融合法。
(3)DITレイヤー全体の回転位置埋め込み(ロープ)の優先分析。
実験は、VGDFRが最小限の品質分解でビデオ生成のために最大3倍のスピードアップを達成できることを示しています。

要約(オリジナル)

Diffusion Transformer(DiT)-based generation models have achieved remarkable success in video generation. However, their inherent computational demands pose significant efficiency challenges. In this paper, we exploit the inherent temporal non-uniformity of real-world videos and observe that videos exhibit dynamic information density, with high-motion segments demanding greater detail preservation than static scenes. Inspired by this temporal non-uniformity, we propose VGDFR, a training-free approach for Diffusion-based Video Generation with Dynamic Latent Frame Rate. VGDFR adaptively adjusts the number of elements in latent space based on the motion frequency of the latent space content, using fewer tokens for low-frequency segments while preserving detail in high-frequency segments. Specifically, our key contributions are: (1) A dynamic frame rate scheduler for DiT video generation that adaptively assigns frame rates for video segments. (2) A novel latent-space frame merging method to align latent representations with their denoised counterparts before merging those redundant in low-resolution space. (3) A preference analysis of Rotary Positional Embeddings (RoPE) across DiT layers, informing a tailored RoPE strategy optimized for semantic and local information capture. Experiments show that VGDFR can achieve a speedup up to 3x for video generation with minimal quality degradation.

arxiv情報

著者 Zhihang Yuan,Rui Xie,Yuzhang Shang,Hanling Zhang,Siyuan Wang,Shengen Yan,Guohao Dai,Yu Wang
発行日 2025-04-16 17:09:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | VGDFR: Diffusion-based Video Generation with Dynamic Latent Frame Rate はコメントを受け付けていません