OneIG-Bench: Omni-dimensional Nuanced Evaluation for Image Generation

要約

テキストツーイメージ(T2I)モデルは、テキストプロンプトに沿った高品質の画像を生成するために大きな注意を集めています。
ただし、迅速なT2Iモデルの進歩により、初期のベンチマークの制限が明らかになりますが、包括的な評価はありません。たとえば、推論、テキストのレンダリング、スタイルに関する評価があります。
特に、豊富な知識モデリング機能を備えた最近の最先端のモデルは、強力な推論能力を必要とする画像生成の問題について有望な結果を示していますが、既存の評価システムはこのフロンティアに適切に対処していません。
これらのギャップに体系的に対処するために、プロンプトイメージのアライメント、精度のレンダリング、推論生成コンテンツ、スタイリライゼーション、多様性など、複数の次元にわたってT2Iモデルの微細に設計された包括的なベンチマークフレームワークであるOneig-Benchを紹介します。
評価を構成することにより、このベンチマークはモデルパフォーマンスの詳細な分析を可能にし、研究者と実践者が画像生成の完全なパイプラインで強度とボトルネックを特定するのを支援します。
具体的には、Oneig-Benchは、ユーザーが特定の評価サブセットに集中できるようにすることにより、柔軟な評価を可能にします。
プロンプトのセット全体の画像を生成する代わりに、ユーザーは選択したディメンションに関連付けられたプロンプトに対してのみ画像を生成し、それに応じて対応する評価を完了できます。
CodebaseとDatasetは、T2I研究コミュニティ内での再現可能な評価研究とクロスモデル比較を促進するために、公開されています。

要約(オリジナル)

Text-to-image (T2I) models have garnered significant attention for generating high-quality images aligned with text prompts. However, rapid T2I model advancements reveal limitations in early benchmarks, lacking comprehensive evaluations, for example, the evaluation on reasoning, text rendering and style. Notably, recent state-of-the-art models, with their rich knowledge modeling capabilities, show promising results on the image generation problems requiring strong reasoning ability, yet existing evaluation systems have not adequately addressed this frontier. To systematically address these gaps, we introduce OneIG-Bench, a meticulously designed comprehensive benchmark framework for fine-grained evaluation of T2I models across multiple dimensions, including prompt-image alignment, text rendering precision, reasoning-generated content, stylization, and diversity. By structuring the evaluation, this benchmark enables in-depth analysis of model performance, helping researchers and practitioners pinpoint strengths and bottlenecks in the full pipeline of image generation. Specifically, OneIG-Bench enables flexible evaluation by allowing users to focus on a particular evaluation subset. Instead of generating images for the entire set of prompts, users can generate images only for the prompts associated with the selected dimension and complete the corresponding evaluation accordingly. Our codebase and dataset are now publicly available to facilitate reproducible evaluation studies and cross-model comparisons within the T2I research community.

arxiv情報

著者 Jingjing Chang,Yixiao Fang,Peng Xing,Shuhan Wu,Wei Cheng,Rui Wang,Xianfang Zeng,Gang Yu,Hai-Bao Chen
発行日 2025-06-09 17:50:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | OneIG-Bench: Omni-dimensional Nuanced Evaluation for Image Generation はコメントを受け付けていません

Real-time Localization of a Soccer Ball from a Single Camera

要約

単一のブロードキャストカメラからのリアルタイムの3次元フットボール軌道再構成のための計算効率的な方法を提案します。
以前の作業とは対照的に、私たちのアプローチでは、$ W $離散モードを備えたマルチモード状態モデルを導入し、センチメートルレベルの精度を維持しながら最適化を大幅に加速します。
システムは標準のCPUで動作し、ライブブロードキャスト設定に適した低レイテンシを実現します。
6K解像度のロシアプレミアリーグの試合の独自のデータセットに関する広範な評価は、専門的または費用のかかるインフラストラクチャを必要とせずに、マルチカメラシステムに匹敵するパフォーマンスを示しています。
この作業は、プロのサッカー環境でアクセスしやすく正確な3Dボールトラッキングのための実用的な方法を提供します。

要約(オリジナル)

We propose a computationally efficient method for real-time three-dimensional football trajectory reconstruction from a single broadcast camera. In contrast to previous work, our approach introduces a multi-mode state model with $W$ discrete modes to significantly accelerate optimization while preserving centimeter-level accuracy — even in cases of severe occlusion, motion blur, and complex backgrounds. The system operates on standard CPUs and achieves low latency suitable for live broadcast settings. Extensive evaluation on a proprietary dataset of 6K-resolution Russian Premier League matches demonstrates performance comparable to multi-camera systems, without the need for specialized or costly infrastructure. This work provides a practical method for accessible and accurate 3D ball tracking in professional football environments.

arxiv情報

著者 Dmitrii Vorobev,Artem Prosvetov,Karim Elhadji Daou
発行日 2025-06-09 17:52:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG | Real-time Localization of a Soccer Ball from a Single Camera はコメントを受け付けていません

CXR-LT 2024: A MICCAI challenge on long-tailed, multi-label, and zero-shot disease classification from chest X-ray

要約

CXR-LTシリーズは、胸部X線(CXR)を使用した肺疾患の分類を強化するために設計されたコミュニティ主導のイニシアチブです。
開いた長い尾のある肺疾患の分類における課題に取り組み、最先端の技術の測定可能性を高めます。
最初のイベントであるCXR-LT 2023は、モデル開発のための高品質のベンチマークCXRデータを提供し、肺疾患の分類パフォーマンスに影響を与える継続的な問題を特定するための包括的な評価を実施することにより、これらの目標を達成することを目的としています。
CXR-LT 2023の成功に基づいて、CXR-LT 2024はデータセットを377,110の胸部X線(CXR)および19の新しい希少疾患所見を含む45の疾患ラベルに拡大します。
また、前のイベントで特定された制限に対処するために、ゼロショット学習に新しい焦点を導入します。
具体的には、CXR-LT 2024には、3つのタスクがあります。(i)大きな騒々しいテストセットでの長期尾の分類、(ii)手動で注釈された「ゴールドスタンダード」サブセットに関する長期尾の分類、および(iii)以前に目にした5つの病気の発見へのゼロショット一般化。
このホワイトペーパーでは、CXR-LT 2024の概要を説明し、データキュレーションプロセスの詳細と、希少疾患検出のためのマルチモーダルモデルの使用、ノイズの多いラベルを処理するための高度な生成アプローチ、目に見えない病気のためのゼロショット学習戦略など、最先端のソリューションを統合します。
さらに、拡張されたデータセットは疾患の範囲を促進し、実際の臨床設定をよりよく表し、将来の研究に貴重なリソースを提供します。
参加チームの洞察と革新を統合することにより、胸部X線撮影の臨床的に現実的で一般化可能な診断モデルの開発を進めることを目指しています。

要約(オリジナル)

The CXR-LT series is a community-driven initiative designed to enhance lung disease classification using chest X-rays (CXR). It tackles challenges in open long-tailed lung disease classification and enhances the measurability of state-of-the-art techniques. The first event, CXR-LT 2023, aimed to achieve these goals by providing high-quality benchmark CXR data for model development and conducting comprehensive evaluations to identify ongoing issues impacting lung disease classification performance. Building on the success of CXR-LT 2023, the CXR-LT 2024 expands the dataset to 377,110 chest X-rays (CXRs) and 45 disease labels, including 19 new rare disease findings. It also introduces a new focus on zero-shot learning to address limitations identified in the previous event. Specifically, CXR-LT 2024 features three tasks: (i) long-tailed classification on a large, noisy test set, (ii) long-tailed classification on a manually annotated ‘gold standard’ subset, and (iii) zero-shot generalization to five previously unseen disease findings. This paper provides an overview of CXR-LT 2024, detailing the data curation process and consolidating state-of-the-art solutions, including the use of multimodal models for rare disease detection, advanced generative approaches to handle noisy labels, and zero-shot learning strategies for unseen diseases. Additionally, the expanded dataset enhances disease coverage to better represent real-world clinical settings, offering a valuable resource for future research. By synthesizing the insights and innovations of participating teams, we aim to advance the development of clinically realistic and generalizable diagnostic models for chest radiography.

arxiv情報

著者 Mingquan Lin,Gregory Holste,Song Wang,Yiliang Zhou,Yishu Wei,Imon Banerjee,Pengyi Chen,Tianjie Dai,Yuexi Du,Nicha C. Dvornek,Yuyan Ge,Zuowei Guo,Shouhei Hanaoka,Dongkyun Kim,Pablo Messina,Yang Lu,Denis Parra,Donghyun Son,Álvaro Soto,Aisha Urooj,René Vidal,Yosuke Yamagishi,Zefan Yang,Ruichi Zhang,Yang Zhou,Leo Anthony Celi,Ronald M. Summers,Zhiyong Lu,Hao Chen,Adam Flanders,George Shih,Zhangyang Wang,Yifan Peng
発行日 2025-06-09 17:53:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG | CXR-LT 2024: A MICCAI challenge on long-tailed, multi-label, and zero-shot disease classification from chest X-ray はコメントを受け付けていません

Rethinking Crowd-Sourced Evaluation of Neuron Explanations

要約

アクティベーションの個々のニューロンまたは方向の解釈空間は、機械的解釈可能性の重要な要素です。
そのため、ニューロンの説明を自動的に生成するために多くのアルゴリズムが提案されていますが、これらの説明がどれほど信頼できるか、またはどの方法が最良の説明を生成するかは明確ではないことがよくあります。
これは、群衆による評価を介して測定できますが、しばしば騒がしくて高価な場合があり、信頼できない結果につながる可能性があります。
この論文では、評価パイプラインを慎重に分析し、費用対効果の高い非常に正確なクラウドソーシング評価戦略を開発します。
説明が最も活性化する入力と一致するかどうかのみを評価する以前の人間の研究とは対照的に、説明がすべての入力にわたってニューロンの活性化を説明するかどうかを推定します。
これを効果的に推定するために、重要なサンプリングの新しいアプリケーションを導入して、どの入力が評価者に最も価値があるかを判断し、均一なサンプリングと比較して約30倍のコスト削減につながります。
また、クラウドソースの評価に存在するラベルノイズを分析し、複数の評価を集約するベイズメソッドを提案し、同じ精度に必要な評価数がさらに5倍減少します。
最後に、これらの方法を使用して、2つの異なるビジョンモデルで最も一般的な方法によって生成されたニューロンの説明の品質を比較する大規模な研究を実施します。

要約(オリジナル)

Interpreting individual neurons or directions in activations space is an important component of mechanistic interpretability. As such, many algorithms have been proposed to automatically produce neuron explanations, but it is often not clear how reliable these explanations are, or which methods produce the best explanations. This can be measured via crowd-sourced evaluations, but they can often be noisy and expensive, leading to unreliable results. In this paper, we carefully analyze the evaluation pipeline and develop a cost-effective and highly accurate crowdsourced evaluation strategy. In contrast to previous human studies that only rate whether the explanation matches the most highly activating inputs, we estimate whether the explanation describes neuron activations across all inputs. To estimate this effectively, we introduce a novel application of importance sampling to determine which inputs are the most valuable to show to raters, leading to around 30x cost reduction compared to uniform sampling. We also analyze the label noise present in crowd-sourced evaluations and propose a Bayesian method to aggregate multiple ratings leading to a further ~5x reduction in number of ratings required for the same accuracy. Finally, we use these methods to conduct a large-scale study comparing the quality of neuron explanations produced by the most popular methods for two different vision models.

arxiv情報

著者 Tuomas Oikarinen,Ge Yan,Akshay Kulkarni,Tsui-Wei Weng
発行日 2025-06-09 17:53:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG | Rethinking Crowd-Sourced Evaluation of Neuron Explanations はコメントを受け付けていません

Rethinking Cross-Modal Interaction in Multimodal Diffusion Transformers

要約

マルチモーダル拡散トランス(MM-DITS)は、テキスト駆動型の視覚生成において顕著な進歩を遂げました。
ただし、Fluxのような最先端のMM-DITモデルでさえ、テキストプロンプトと生成されたコンテンツ間の正確なアライメントの達成に苦労しています。
MM-DITの注意メカニズムにおける2つの重要な問題、すなわち1)視覚的モダリティとテキストモダリティと2)アライメントを妨げるタイムステップに付随する注意の重み付けの欠如によるトークンの不均衡によるクロスモーダルの注意の抑制を特定します。
これらの問題に対処するために、\ textBf {温度調整されたクロスモーダル注意(TACA)}を提案します。これは、温度スケーリングとタイムステップ依存の調整を介したマルチモーダル相互作用を動的にリバランスするパラメーター効率の高い方法です。
Loraの微調整と組み合わせると、TACAはT2I-Compbenchベンチマークでのテキストイメージのアラインメントを最小限の計算オーバーヘッドで大幅に強化します。
FluxやSD3.5などの最先端のモデルでTACAをテストし、オブジェクトの外観、属性結合、および空間的関係に関して画像テキストアライメントを改善する能力を実証しました。
私たちの調査結果は、テキストから画像への拡散モデルのセマンティックフィデリティを改善する上で、クロスモーダルの注意のバランスをとることの重要性を強調しています。
私たちのコードは\ href {https://github.com/vchitect/taca}で公開されています

要約(オリジナル)

Multimodal Diffusion Transformers (MM-DiTs) have achieved remarkable progress in text-driven visual generation. However, even state-of-the-art MM-DiT models like FLUX struggle with achieving precise alignment between text prompts and generated content. We identify two key issues in the attention mechanism of MM-DiT, namely 1) the suppression of cross-modal attention due to token imbalance between visual and textual modalities and 2) the lack of timestep-aware attention weighting, which hinder the alignment. To address these issues, we propose \textbf{Temperature-Adjusted Cross-modal Attention (TACA)}, a parameter-efficient method that dynamically rebalances multimodal interactions through temperature scaling and timestep-dependent adjustment. When combined with LoRA fine-tuning, TACA significantly enhances text-image alignment on the T2I-CompBench benchmark with minimal computational overhead. We tested TACA on state-of-the-art models like FLUX and SD3.5, demonstrating its ability to improve image-text alignment in terms of object appearance, attribute binding, and spatial relationships. Our findings highlight the importance of balancing cross-modal attention in improving semantic fidelity in text-to-image diffusion models. Our codes are publicly available at \href{https://github.com/Vchitect/TACA}

arxiv情報

著者 Zhengyao Lv,Tianlin Pan,Chenyang Si,Zhaoxi Chen,Wangmeng Zuo,Ziwei Liu,Kwan-Yee K. Wong
発行日 2025-06-09 17:54:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Rethinking Cross-Modal Interaction in Multimodal Diffusion Transformers はコメントを受け付けていません

PairEdit: Learning Semantic Variations for Exemplar-based Image Editing

要約

テキスト誘導画像編集における最近の進歩は、微調整されたセマンティックコントロールのために自然言語プロンプトを活用することにより、顕著な成功を収めています。
ただし、特定の編集セマンティクスは、テキストの説明だけを使用して正確に指定することが困難です。
実用的な代替案には、ペアのソースターゲット例からセマンティクスの編集を学ぶことが含まれます。
既存の模範ベースの編集方法は、ペアリングされた例内の変更を説明するテキストプロンプトに依存しているか、暗黙のテキストベースの編集手順を学習しています。
この論文では、テキストガイダンスを使用せずに、限られた数の画像ペアまたは単一の画像ペアから複雑な編集セマンティクスを効果的に学習するように設計された新しい視覚編集方法であるPaileDitを紹介します。
ガイダンス方向の用語を介して、ペアの画像内のセマンティックバリエーションを明示的にモデル化するターゲットノイズ予測を提案します。
さらに、より効果的なセマンティック学習を促進するために、コンテンツを提供するノイズスケジュールを紹介します。
また、コンテンツからのセマンティックバリエーションの学習を解くように異なるロラを最適化することを提案します。
広範な定性的および定量的評価は、ペアディットが複雑なセマンティクスを正常に学習し、ベースラインの方法と比較してコンテンツの一貫性を大幅に改善することを示しています。
コードはhttps://github.com/xudonmao/paireditで入手できます。

要約(オリジナル)

Recent advancements in text-guided image editing have achieved notable success by leveraging natural language prompts for fine-grained semantic control. However, certain editing semantics are challenging to specify precisely using textual descriptions alone. A practical alternative involves learning editing semantics from paired source-target examples. Existing exemplar-based editing methods still rely on text prompts describing the change within paired examples or learning implicit text-based editing instructions. In this paper, we introduce PairEdit, a novel visual editing method designed to effectively learn complex editing semantics from a limited number of image pairs or even a single image pair, without using any textual guidance. We propose a target noise prediction that explicitly models semantic variations within paired images through a guidance direction term. Moreover, we introduce a content-preserving noise schedule to facilitate more effective semantic learning. We also propose optimizing distinct LoRAs to disentangle the learning of semantic variations from content. Extensive qualitative and quantitative evaluations demonstrate that PairEdit successfully learns intricate semantics while significantly improving content consistency compared to baseline methods. Code will be available at https://github.com/xudonmao/PairEdit.

arxiv情報

著者 Haoguang Lu,Jiacheng Chen,Zhenguo Yang,Aurele Tohokantche Gnanha,Fu Lee Wang,Li Qing,Xudong Mao
発行日 2025-06-09 17:57:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | PairEdit: Learning Semantic Variations for Exemplar-based Image Editing はコメントを受け付けていません

UA-Pose: Uncertainty-Aware 6D Object Pose Estimation and Online Object Completion with Partial References

要約

6Dオブジェクトのポーズ推定により、新しいオブジェクトが強力な一般化可能性が示されています。
ただし、既存の方法では、多くの場合、完全に再構築された3Dモデルまたはオブジェクトを完全にカバーする多数の参照画像が必要です。
オブジェクトの外観とジオメトリのフラグメントのみをキャプチャする部分的な参照からの6Dポーズを推定することは、依然として困難です。
これに対処するために、6Dオブジェクトのポーズ推定と部分的な参照用に設計されたオンラインオブジェクトの完了に対する不確実なアプローチであるUAポーズを提案します。
(1)既知のポーズを備えたRGBD画像の限られたセットまたは(2)単一の2D画像へのアクセスを想定しています。
最初のケースでは、提供された画像とポーズに基づいて部分オブジェクト3Dモデルを初期化しますが、2番目には画像から3Dテクニックを使用して、初期オブジェクト3Dモデルを生成します。
私たちの方法は、不完全な3Dモデルに不確実性を統合し、見られた領域と目に見えない領域を区別します。
この不確実性により、ポーズの推定における信頼評価が可能になり、オンラインオブジェクトの完了のための不確実性を認識したサンプリング戦略を導き、ポーズ推定精度の堅牢性を高め、オブジェクトの完全性を向上させます。
ロボットと人間の手によって操作されたYCBオブジェクトのRGBDシーケンスを含む、YCB-Video、Ycbineoat、およびHO3Dデータセットに関する方法を評価します。
実験結果は、特にオブジェクトの観測が不完全または部分的にキャプチャされている場合、既存の方法よりも大幅なパフォーマンスの改善を示しています。
プロジェクトページ:https://minfenli.github.io/ua-pose/

要約(オリジナル)

6D object pose estimation has shown strong generalizability to novel objects. However, existing methods often require either a complete, well-reconstructed 3D model or numerous reference images that fully cover the object. Estimating 6D poses from partial references, which capture only fragments of an object’s appearance and geometry, remains challenging. To address this, we propose UA-Pose, an uncertainty-aware approach for 6D object pose estimation and online object completion specifically designed for partial references. We assume access to either (1) a limited set of RGBD images with known poses or (2) a single 2D image. For the first case, we initialize a partial object 3D model based on the provided images and poses, while for the second, we use image-to-3D techniques to generate an initial object 3D model. Our method integrates uncertainty into the incomplete 3D model, distinguishing between seen and unseen regions. This uncertainty enables confidence assessment in pose estimation and guides an uncertainty-aware sampling strategy for online object completion, enhancing robustness in pose estimation accuracy and improving object completeness. We evaluate our method on the YCB-Video, YCBInEOAT, and HO3D datasets, including RGBD sequences of YCB objects manipulated by robots and human hands. Experimental results demonstrate significant performance improvements over existing methods, particularly when object observations are incomplete or partially captured. Project page: https://minfenli.github.io/UA-Pose/

arxiv情報

著者 Ming-Feng Li,Xin Yang,Fu-En Wang,Hritam Basak,Yuyin Sun,Shreekant Gayaka,Min Sun,Cheng-Hao Kuo
発行日 2025-06-09 17:58:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | UA-Pose: Uncertainty-Aware 6D Object Pose Estimation and Online Object Completion with Partial References はコメントを受け付けていません

Generative Modeling of Weights: Generalization or Memorization?

要約

イメージとビデオ生成に成功した生成モデルは、効果的なニューラルネットワークの重みを合成するために最近検討されました。
これらのアプローチでは、トレーニングされたニューラルネットワークチェックポイントをトレーニングデータとして使用し、推論中に高性能のニューラルネットワークの重みを生成することを目指しています。
この作業では、新しいモデルの重みを生成する能力、つまりトレーニング中に見られるチェックポイントとは異なる重みに関する4つの代表的な方法を調べます。
驚くべきことに、これらの方法は、主に暗記によって重みを合成していることがわかります。トレーニングチェックポイントのレプリカ、またはせいぜい単純な補間のいずれかを生成します。
現在のメソッドは、ウェイトにノイズを追加したり、単純な重量アンサンブルを服用したり、異なる高性能モデルを取得したりするなど、単純なベースラインを上回ることができません。
さらに、この暗記は、画像拡散モデルの記憶に一般的に関連するモデリング因子を変更したり、データの増強を適用したりすることで、効果的に軽減できないことを示します。
私たちの調査結果は、現在の生成モデルがモデル化できるデータの種類の現実的な評価を提供し、新しいドメインでの生成モデルのより慎重な評価の必要性を強調しています。
私たちのコードは、https://github.com/boyazeng/weight_memorizationで入手できます。

要約(オリジナル)

Generative models, with their success in image and video generation, have recently been explored for synthesizing effective neural network weights. These approaches take trained neural network checkpoints as training data, and aim to generate high-performing neural network weights during inference. In this work, we examine four representative methods on their ability to generate novel model weights, i.e., weights that are different from the checkpoints seen during training. Surprisingly, we find that these methods synthesize weights largely by memorization: they produce either replicas, or at best simple interpolations, of the training checkpoints. Current methods fail to outperform simple baselines, such as adding noise to the weights or taking a simple weight ensemble, in obtaining different and simultaneously high-performing models. We further show that this memorization cannot be effectively mitigated by modifying modeling factors commonly associated with memorization in image diffusion models, or applying data augmentations. Our findings provide a realistic assessment of what types of data current generative models can model, and highlight the need for more careful evaluation of generative models in new domains. Our code is available at https://github.com/boyazeng/weight_memorization.

arxiv情報

著者 Boya Zeng,Yida Yin,Zhiqiu Xu,Zhuang Liu
発行日 2025-06-09 17:58:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG | Generative Modeling of Weights: Generalization or Memorization? はコメントを受け付けていません

MADFormer: Mixed Autoregressive and Diffusion Transformers for Continuous Image Generation

要約

マルチモーダル生成の最近の進歩により、自己回帰(AR)と拡散ベースのアプローチがますます組み合わされており、補完的な強みを活用しています。ARモデルは長距離依存関係をキャプチャし、流fluent、コンテキストを意識した出力を生成しますが、拡散モデルは連続的な潜在スペースで動作し、高フィデリティの視覚的詳細を改善します。
ただし、既存のハイブリッドには、これらのパラダイム間にモデル容量を割り当てる方法と理由に関する体系的なガイダンスがしばしば欠けています。
この作業では、AR拡散トレードオフを分析するためのテストベッドとして機能する混合自己回帰と拡散トランスであるMadformerを紹介します。
Madformerは、画像の生成を空間ブロックに分割します。ARレイヤーを使用して、ブロック全体のワンパスグローバルコンディショニングと各ブロック内の反復局所洗練の拡散層を使用します。
FFHQ-1024とImagenetでの制御された実験を通じて、2つの重要な洞察を特定します。(1)ブロックごとのパーティション化により、高解像度画像のパフォーマンスが大幅に向上し、(2)ARと拡散層の垂直混合により、より良い品質効率バランスが得られます。
私たちの調査結果は、将来のハイブリッド生成モデルの実用的な設計原則を提供します。

要約(オリジナル)

Recent progress in multimodal generation has increasingly combined autoregressive (AR) and diffusion-based approaches, leveraging their complementary strengths: AR models capture long-range dependencies and produce fluent, context-aware outputs, while diffusion models operate in continuous latent spaces to refine high-fidelity visual details. However, existing hybrids often lack systematic guidance on how and why to allocate model capacity between these paradigms. In this work, we introduce MADFormer, a Mixed Autoregressive and Diffusion Transformer that serves as a testbed for analyzing AR-diffusion trade-offs. MADFormer partitions image generation into spatial blocks, using AR layers for one-pass global conditioning across blocks and diffusion layers for iterative local refinement within each block. Through controlled experiments on FFHQ-1024 and ImageNet, we identify two key insights: (1) block-wise partitioning significantly improves performance on high-resolution images, and (2) vertically mixing AR and diffusion layers yields better quality-efficiency balances–improving FID by up to 75% under constrained inference compute. Our findings offer practical design principles for future hybrid generative models.

arxiv情報

著者 Junhao Chen,Yulia Tsvetkov,Xiaochuang Han
発行日 2025-06-09 17:59:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG | MADFormer: Mixed Autoregressive and Diffusion Transformers for Continuous Image Generation はコメントを受け付けていません

E3D-Bench: A Benchmark for End-to-End 3D Geometric Foundation Models

要約

3D再構成、知覚、および推論を含む空間インテリジェンスは、ロボット工学、空中画像化、拡張現実などのアプリケーションの基本です。
重要なイネーブラーは、非構造化またはストリーミング画像からのコア3D属性(カメラパラメーター、ポイントクラウド、深度マップ、3Dポイントトラック)のリアルタイムで正確な推定です。
言語と2Dビジョンにおける大規模な基礎モデルの成功に触発された新しいエンドツーエンドの3D幾何学的基礎モデル(GFMS)の新しいクラスが登場し、単一のフィードフォワードパスで密な3D表現を直接予測し、低速または利用できない事前計算カメラパラメーターの必要性を排除します。
2023年後半以来、この分野は多様なバリエーションで爆発しましたが、体系的な評価は不足しています。
この作業では、3D GFMの最初の包括的なベンチマークを紹介し、5つのコアタスクをカバーします:スパースビュー深度推定、ビデオ深度推定、3D再構成、マルチビューポーズ推定、新規ビューの合成、および標準的および挑戦的な分布データセットの両方にまたがる。
当社の標準化されたツールキットは、データセットの取り扱い、評価プロトコル、およびメトリック計算を自動化して、公正で再現可能な比較を確保します。
16の最先端のGFMを評価し、タスクとドメイン全体の強みと制限を明らかにし、将来のモデルのスケーリングと最適化を導く重要な洞察を導き出します。
すべてのコード、評価スクリプト、および処理されたデータは、3D空間インテリジェンスの研究を加速するために公開されます。

要約(オリジナル)

Spatial intelligence, encompassing 3D reconstruction, perception, and reasoning, is fundamental to applications such as robotics, aerial imaging, and extended reality. A key enabler is the real-time, accurate estimation of core 3D attributes (camera parameters, point clouds, depth maps, and 3D point tracks) from unstructured or streaming imagery. Inspired by the success of large foundation models in language and 2D vision, a new class of end-to-end 3D geometric foundation models (GFMs) has emerged, directly predicting dense 3D representations in a single feed-forward pass, eliminating the need for slow or unavailable precomputed camera parameters. Since late 2023, the field has exploded with diverse variants, but systematic evaluation is lacking. In this work, we present the first comprehensive benchmark for 3D GFMs, covering five core tasks: sparse-view depth estimation, video depth estimation, 3D reconstruction, multi-view pose estimation, novel view synthesis, and spanning both standard and challenging out-of-distribution datasets. Our standardized toolkit automates dataset handling, evaluation protocols, and metric computation to ensure fair, reproducible comparisons. We evaluate 16 state-of-the-art GFMs, revealing their strengths and limitations across tasks and domains, and derive key insights to guide future model scaling and optimization. All code, evaluation scripts, and processed data will be publicly released to accelerate research in 3D spatial intelligence.

arxiv情報

著者 Wenyan Cong,Yiqing Liang,Yancheng Zhang,Ziyi Yang,Yan Wang,Boris Ivanovic,Marco Pavone,Chen Chen,Zhangyang Wang,Zhiwen Fan
発行日 2025-06-09 17:59:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | E3D-Bench: A Benchmark for End-to-End 3D Geometric Foundation Models はコメントを受け付けていません