RISE-SDF: a Relightable Information-Shared Signed Distance Field for Glossy Object Inverse Rendering

要約

この論文では、形状と材料特性の高品質な再構築を実現し、高品質の再照明を可能にする、新しいエンドツーエンドの再照明可能なニューラル インバース レンダリング システムを提案します。
私たちの方法の基礎は、シーン パラメーターのより適切な因数分解を学習するための 2 段階のアプローチです。
最初の段階では、ジオメトリ表現として神経符号付き距離フィールド (SDF) を使用して反射を意識した放射輝度フィールドを開発し、間接照明を推定するために MLP (多層パーセプトロン) を展開します。
第 2 段階では、シーンの放射フィールドと物理ベースの因数分解を共同で学習するための新しい情報共有ネットワーク構造を導入します。
物理ベースの因数分解では、モンテカルロ サンプリングによって生じるノイズを低減するために、簡略化された Disney BRDF とキューブ ミップマップを環境光の表現として使用した分割和近似を適用します。
再照明フェーズでは、間接照明の品質を向上させるために、スプリットサム レンダリング フレームワークの下で二次光線を追跡するための 2 番目のスプリットサム アルゴリズムを提案します。
さらに、光沢のあるオブジェクトの逆レンダリング パフォーマンスを定量的に評価するために利用できるデータセットやプロトコルはありません。
マテリアルの再構築と再ライティングの品質を評価するために、グラウンド トゥルースの BRDF パラメーターと再ライティングの結果を含む新しいデータセットを作成しました。
私たちの実験では、私たちのアルゴリズムが逆レンダリングと再ライティングにおいて最先端のパフォーマンスを達成し、特に反射率の高いオブジェクトの再構築において優れた結果が得られることが実証されました。

要約(オリジナル)

In this paper, we propose a novel end-to-end relightable neural inverse rendering system that achieves high-quality reconstruction of geometry and material properties, thus enabling high-quality relighting. The cornerstone of our method is a two-stage approach for learning a better factorization of scene parameters. In the first stage, we develop a reflection-aware radiance field using a neural signed distance field (SDF) as the geometry representation and deploy an MLP (multilayer perceptron) to estimate indirect illumination. In the second stage, we introduce a novel information-sharing network structure to jointly learn the radiance field and the physically based factorization of the scene. For the physically based factorization, to reduce the noise caused by Monte Carlo sampling, we apply a split-sum approximation with a simplified Disney BRDF and cube mipmap as the environment light representation. In the relighting phase, to enhance the quality of indirect illumination, we propose a second split-sum algorithm to trace secondary rays under the split-sum rendering framework. Furthermore, there is no dataset or protocol available to quantitatively evaluate the inverse rendering performance for glossy objects. To assess the quality of material reconstruction and relighting, we have created a new dataset with ground truth BRDF parameters and relighting results. Our experiments demonstrate that our algorithm achieves state-of-the-art performance in inverse rendering and relighting, with particularly strong results in the reconstruction of highly reflective objects.

arxiv情報

著者 Deheng Zhang,Jingyu Wang,Shaofei Wang,Marko Mihajlovic,Sergey Prokudin,Hendrik P. A. Lensch,Siyu Tang
発行日 2024-10-10 17:05:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.GR | コメントする

Efficient Perspective-Correct 3D Gaussian Splatting Using Hybrid Transparency

要約

3D ガウス スプラット (3DGS) は、逆レンダリングとシーンのリアルタイム探索の両方において、多用途のレンダリング プリミティブであることが証明されています。
これらのアプリケーションでは、シーン再構成の堅牢な収束やアーティファクトのないフライスルーのいずれであっても、カメラ フレームと複数のビューにわたる一貫性が非常に重要です。
最近の取り組みでは、一貫性のない透明度の並べ替えや (2D) スプラットの遠近法が正しい輪郭によるポップ アーティファクトなど、マルチビューの一貫性を損なうアーティファクトの軽減を開始しました。
同時に、リアルタイム要件により、このような実装は 3D ガウスの大きなアセンブリの透明性を解決する方法について妥協を受け入れることを余儀なくされ、その結果、他の方法で一貫性が損なわれてしまいました。
私たちの作業では、リアルタイムのフレーム レートを維持するために、ピクセルごとのレベルで正確なブレンディングとハイブリッド透明度の高品質な近似を使用しながら、完全に遠近法が正しい 3D ガウスをレンダリングすることで、コヒーレンスを最大化することを目指しています。
3D ガウスを評価するための高速かつ透視的に正確なアプローチは、行列の反転を必要としないため、数値的安定性が確保され、縮退スプラットの特別な処理の必要性がなくなり、ブレンド用のハイブリッド透明度の定式化により、完全に解像度されたピクセルごとの透明度と同様の品質が維持されます。
レンダリングコストの一部。
さらに、これら 2 つのコンポーネントのそれぞれを独立してガウス スプラッティング システムに統合できることを示します。
これらを組み合わせることで、一般的なベンチマークで従来の 3DGS と比較して、最大 2$\倍$ 高いフレーム レート、2$\倍$ 高速な最適化、およびレンダリング アーティファクトの少ない同等以上の画質を実現します。

要約(オリジナル)

3D Gaussian Splats (3DGS) have proven a versatile rendering primitive, both for inverse rendering as well as real-time exploration of scenes. In these applications, coherence across camera frames and multiple views is crucial, be it for robust convergence of a scene reconstruction or for artifact-free fly-throughs. Recent work started mitigating artifacts that break multi-view coherence, including popping artifacts due to inconsistent transparency sorting and perspective-correct outlines of (2D) splats. At the same time, real-time requirements forced such implementations to accept compromises in how transparency of large assemblies of 3D Gaussians is resolved, in turn breaking coherence in other ways. In our work, we aim at achieving maximum coherence, by rendering fully perspective-correct 3D Gaussians while using a high-quality approximation of accurate blending, hybrid transparency, on a per-pixel level, in order to retain real-time frame rates. Our fast and perspectively accurate approach for evaluation of 3D Gaussians does not require matrix inversions, thereby ensuring numerical stability and eliminating the need for special handling of degenerate splats, and the hybrid transparency formulation for blending maintains similar quality as fully resolved per-pixel transparencies at a fraction of the rendering costs. We further show that each of these two components can be independently integrated into Gaussian splatting systems. In combination, they achieve up to 2$\times$ higher frame rates, 2$\times$ faster optimization, and equal or better image quality with fewer rendering artifacts compared to traditional 3DGS on common benchmarks.

arxiv情報

著者 Florian Hahlbohm,Fabian Friederichs,Tim Weyrich,Linus Franke,Moritz Kappel,Susana Castillo,Marc Stamminger,Martin Eisemann,Marcus Magnor
発行日 2024-10-10 17:14:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.GR | コメントする

6DGS: Enhanced Direction-Aware Gaussian Splatting for Volumetric Rendering

要約

新しいビューの合成は、ニューラル放射フィールド (NeRF) と 3D ガウス スプラッティング (3DGS) の開発により大幅に進歩しました。
ただし、リアルタイム レンダリングを損なうことなく高品質を達成することは、特にビュー依存の効果を伴う物理ベースのレイ トレーシングの場合、依然として困難です。
最近、N 次元ガウス (N-DG) では、ビュー依存の効果をより適切に組み込むために 6D 空間角度表現が導入されましたが、ガウス表現と制御スキームは最適とは言えません。
このペーパーでは、6D ガウスを再考し、色と不透明度の表現を強化し、最適化されたガウス制御のために 6D 空間内の追加の方向情報を活用する 6D ガウス スプラッティング (6DGS) を紹介します。
私たちのアプローチは 3DGS フレームワークと完全に互換性があり、ビュー依存の効果と詳細をより適切にモデリングすることにより、リアルタイムの放射輝度フィールド レンダリングを大幅に向上させます。
実験では、6DGS が 3DGS および N-DG よりも大幅に優れており、3DGS と比較してガウス ポイントが 66.5% 減少し、PSNR が最大 15.73 dB 向上することが実証されています。
プロジェクトページは: https://gaozhongpai.github.io/6dgs/

要約(オリジナル)

Novel view synthesis has advanced significantly with the development of neural radiance fields (NeRF) and 3D Gaussian splatting (3DGS). However, achieving high quality without compromising real-time rendering remains challenging, particularly for physically-based ray tracing with view-dependent effects. Recently, N-dimensional Gaussians (N-DG) introduced a 6D spatial-angular representation to better incorporate view-dependent effects, but the Gaussian representation and control scheme are sub-optimal. In this paper, we revisit 6D Gaussians and introduce 6D Gaussian Splatting (6DGS), which enhances color and opacity representations and leverages the additional directional information in the 6D space for optimized Gaussian control. Our approach is fully compatible with the 3DGS framework and significantly improves real-time radiance field rendering by better modeling view-dependent effects and fine details. Experiments demonstrate that 6DGS significantly outperforms 3DGS and N-DG, achieving up to a 15.73 dB improvement in PSNR with a reduction of 66.5% Gaussian points compared to 3DGS. The project page is: https://gaozhongpai.github.io/6dgs/

arxiv情報

著者 Zhongpai Gao,Benjamin Planche,Meng Zheng,Anwesa Choudhuri,Terrence Chen,Ziyan Wu
発行日 2024-10-10 17:25:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | コメントする

Theia: Distilling Diverse Vision Foundation Models for Robot Learning

要約

視覚入力をアクションにマッピングする視覚ベースのロボット ポリシー学習では、分類やセグメンテーションなどの単一タスクのニーズを超えて、多様な視覚タスクを全体的に理解する必要があります。
これに触発されて、さまざまな視覚タスクで訓練された複数の既製の視覚基盤モデルを抽出した、ロボット学習用の視覚基盤モデルである Theia を紹介します。
Theia の豊富な視覚表現は多様な視覚的知識をエンコードし、下流のロボット学習を強化します。
広範な実験により、Theia は、少ないトレーニング データと小さなモデル サイズを使用して、教師モデルや以前のロボット学習モデルよりも優れたパフォーマンスを発揮することが実証されました。
さらに、事前トレーニングされた視覚表現の品質を定量化し、特徴のノルム分布のエントロピーが高いほどロボットの学習パフォーマンスが向上すると仮説を立てます。
コード、モデル、デモは https://theia.theaiinstitute.com で入手できます。

要約(オリジナル)

Vision-based robot policy learning, which maps visual inputs to actions, necessitates a holistic understanding of diverse visual tasks beyond single-task needs like classification or segmentation. Inspired by this, we introduce Theia, a vision foundation model for robot learning that distills multiple off-the-shelf vision foundation models trained on varied vision tasks. Theia’s rich visual representations encode diverse visual knowledge, enhancing downstream robot learning. Extensive experiments demonstrate that Theia outperforms its teacher models and prior robot learning models using less training data and smaller model sizes. Additionally, we quantify the quality of pre-trained visual representations and hypothesize that higher entropy in feature norm distributions leads to improved robot learning performance. Code, models, and demo are available at https://theia.theaiinstitute.com.

arxiv情報

著者 Jinghuan Shang,Karl Schmeckpeper,Brandon B. May,Maria Vittoria Minniti,Tarik Kelestemur,David Watkins,Laura Herlant
発行日 2024-10-10 17:27:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG, cs.RO | コメントする

PaliGemma: A versatile 3B VLM for transfer

要約

PaliGemma は、SigLIP-So400m ビジョン エンコーダと Gemma-2B 言語モデルに基づくオープン ビジョン言語モデル (VLM) です。
これは、効果的に転送できる多用途で幅広い知識を備えた基本モデルとなるようにトレーニングされています。
オープンワールドのさまざまなタスクで強力なパフォーマンスを実現します。
私たちは、標準的な VLM ベンチマークだけでなく、リモート センシングやセグメンテーションなどのより特殊なタスクも含む、約 40 の多様なタスクに関して PaliGemma を評価しています。

要約(オリジナル)

PaliGemma is an open Vision-Language Model (VLM) that is based on the SigLIP-So400m vision encoder and the Gemma-2B language model. It is trained to be a versatile and broadly knowledgeable base model that is effective to transfer. It achieves strong performance on a wide variety of open-world tasks. We evaluate PaliGemma on almost 40 diverse tasks including standard VLM benchmarks, but also more specialized tasks such as remote-sensing and segmentation.

arxiv情報

著者 Lucas Beyer,Andreas Steiner,André Susano Pinto,Alexander Kolesnikov,Xiao Wang,Daniel Salz,Maxim Neumann,Ibrahim Alabdulmohsin,Michael Tschannen,Emanuele Bugliarello,Thomas Unterthiner,Daniel Keysers,Skanda Koppula,Fangyu Liu,Adam Grycner,Alexey Gritsenko,Neil Houlsby,Manoj Kumar,Keran Rong,Julian Eisenschlos,Rishabh Kabra,Matthias Bauer,Matko Bošnjak,Xi Chen,Matthias Minderer,Paul Voigtlaender,Ioana Bica,Ivana Balazevic,Joan Puigcerver,Pinelopi Papalampidi,Olivier Henaff,Xi Xiong,Radu Soricut,Jeremiah Harmsen,Xiaohua Zhai
発行日 2024-10-10 17:28:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG | コメントする

Insight Over Sight? Exploring the Vision-Knowledge Conflicts in Multimodal LLMs

要約

この論文では、視覚情報がモデルの内部常識知識と矛盾する、マルチモーダル大規模言語モデル (MLLM) における常識レベルの視覚と知識の矛盾の問題を調査します (図 1 を参照)。
この問題を研究するために、人間参加型の品質管理を強化した自動パイプラインを導入し、MLLM における競合のシミュレーションと評価を目的としたベンチマークを確立します。
このパイプラインを利用して、374 枚のオリジナル画像と 1,122 個の高品質な質問と回答 (QA) のペアで構成される診断ベンチマークを作成しました。
このベンチマークは 2 種類の競合ターゲットと 3 つの質問難易度をカバーしており、徹底的な評価ツールを提供します。
このベンチマークを通じて、さまざまなモデル ファミリにわたる 9 つの代表的な MLLM の競合解決機能を評価し、テキスト クエリへの顕著な過度の依存を発見しました。
これらの発見に基づいて、我々は、矛盾するテキスト知識よりも視覚データを好むMLLMの能力を著しく強化する、新しいプロンプト戦略「フォーカスオンビジョン」(FoV)を提案する。
私たちの詳細な分析と新しく提案された戦略は、MLLM におけるビジョンと知識の矛盾の理解と軽減を大幅に前進させます。
データとコードは公開されています。

要約(オリジナル)

This paper explores the problem of commonsense-level vision-knowledge conflict in Multimodal Large Language Models (MLLMs), where visual information contradicts model’s internal commonsense knowledge (see Figure 1). To study this issue, we introduce an automated pipeline, augmented with human-in-the-loop quality control, to establish a benchmark aimed at simulating and assessing the conflicts in MLLMs. Utilizing this pipeline, we have crafted a diagnostic benchmark comprising 374 original images and 1,122 high-quality question-answer (QA) pairs. This benchmark covers two types of conflict target and three question difficulty levels, providing a thorough assessment tool. Through this benchmark, we evaluate the conflict-resolution capabilities of nine representative MLLMs across various model families and find a noticeable over-reliance on textual queries. Drawing on these findings, we propose a novel prompting strategy, ‘Focus-on-Vision’ (FoV), which markedly enhances MLLMs’ ability to favor visual data over conflicting textual knowledge. Our detailed analysis and the newly proposed strategy significantly advance the understanding and mitigating of vision-knowledge conflicts in MLLMs. The data and code are made publicly available.

arxiv情報

著者 Xiaoyuan Liu,Wenxuan Wang,Youliang Yuan,Jen-tse Huang,Qiuzhi Liu,Pinjia He,Zhaopeng Tu
発行日 2024-10-10 17:31:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV | コメントする

OpenDAS: Open-Vocabulary Domain Adaptation for Segmentation

要約

最近、視覚言語モデル (VLM) は、事前定義されたオブジェクト クラスの閉じたセットの従来のセグメンテーションからオープン語彙セグメンテーション (OVS) に移行することにより、高度なセグメンテーション技術を導入し、ユーザーが言語モデルのトレーニング中に目に見えない新しいクラスや概念をセグメント化できるようになりました。
セグメンテーションモデル。
ただし、この柔軟性にはトレードオフが伴います。完全に監視された閉集合メソッドは、基底クラス、つまり明示的にトレーニングされたクラスに対する OVS メソッドよりも優れたパフォーマンスを発揮します。
これは、VLM 用のピクセル調整されたトレーニング マスク (画像とキャプションのペアでトレーニングされる) が不足していることと、自動運転などのドメイン固有の知識が不足していることが原因です。
したがって、オープン語彙の性質を維持しながら、ドメイン固有の知識を VLM に注入するためのオープン語彙ドメイン適応タスクを提案します。
そうすることで、基本クラスと新規クラスのパフォーマンスが向上します。
既存の VLM 適応方法は、ベース (トレーニング) クエリのパフォーマンスを向上させますが、新しいクエリでは VLM のオープンセット機能を完全には維持できません。
この欠点に対処するために、パラメーター効率の高いプロンプト調整と、補助的な否定クエリを使用する三重項損失ベースのトレーニング戦略を組み合わせます。
特に、私たちのアプローチは、新しいクラスで元の VLM を一貫して上回る、パラメーター効率の高い唯一の方法です。
当社の適応された VLM は、既存の OVS パイプラインにシームレスに統合できます。たとえば、他の変更を加えることなく、オープン語彙 2D セグメンテーションの場合、ADE20K で OVSeg が +6.0% mIoU 向上し、オープン語彙 3D インスタンス セグメンテーションの場合、ScanNet++ Offices で OpenMask3D が +4.1% AP 向上します。

要約(オリジナル)

Recently, Vision-Language Models (VLMs) have advanced segmentation techniques by shifting from the traditional segmentation of a closed-set of predefined object classes to open-vocabulary segmentation (OVS), allowing users to segment novel classes and concepts unseen during training of the segmentation model. However, this flexibility comes with a trade-off: fully-supervised closed-set methods still outperform OVS methods on base classes, that is on classes on which they have been explicitly trained. This is due to the lack of pixel-aligned training masks for VLMs (which are trained on image-caption pairs), and the absence of domain-specific knowledge, such as autonomous driving. Therefore, we propose the task of open-vocabulary domain adaptation to infuse domain-specific knowledge into VLMs while preserving their open-vocabulary nature. By doing so, we achieve improved performance in base and novel classes. Existing VLM adaptation methods improve performance on base (training) queries, but fail to fully preserve the open-set capabilities of VLMs on novel queries. To address this shortcoming, we combine parameter-efficient prompt tuning with a triplet-loss-based training strategy that uses auxiliary negative queries. Notably, our approach is the only parameter-efficient method that consistently surpasses the original VLM on novel classes. Our adapted VLMs can seamlessly be integrated into existing OVS pipelines, e.g., improving OVSeg by +6.0% mIoU on ADE20K for open-vocabulary 2D segmentation, and OpenMask3D by +4.1% AP on ScanNet++ Offices for open-vocabulary 3D instance segmentation without other changes.

arxiv情報

著者 Gonca Yilmaz,Songyou Peng,Marc Pollefeys,Francis Engelmann,Hermann Blum
発行日 2024-10-10 17:32:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | コメントする

Progressive Autoregressive Video Diffusion Models

要約

現在のフロンティアビデオ普及モデルは、高品質ビデオの生成において顕著な結果を示しています。
ただし、トレーニング中の計算制限により、通常は約 10 秒または 240 フレームの短いビデオ クリップしか生成できません。
この研究では、アーキテクチャを変更することなく、既存のモデルを自己回帰ビデオ拡散モデルに自然に拡張できることを示します。
私たちの重要なアイデアは、単一のノイズ レベルではなく、段階的に増加するノイズ レベルを持つ潜在フレームを割り当てることです。これにより、潜在フレーム間の粒度の細かい条件とアテンション ウィンドウ間の大きな重複が可能になります。
このようなプログレッシブビデオノイズ除去により、モデルは品質の低下や突然のシーン変更を発生させることなく、ビデオフレームを自己回帰的に生成することができます。
1 分間の長いビデオ生成 (24 FPS で 1440 フレーム) に関する最先端の結果を紹介します。
この論文のビデオは https://desaixie.github.io/pa-vdm/ でご覧いただけます。

要約(オリジナル)

Current frontier video diffusion models have demonstrated remarkable results at generating high-quality videos. However, they can only generate short video clips, normally around 10 seconds or 240 frames, due to computation limitations during training. In this work, we show that existing models can be naturally extended to autoregressive video diffusion models without changing the architectures. Our key idea is to assign the latent frames with progressively increasing noise levels rather than a single noise level, which allows for fine-grained condition among the latents and large overlaps between the attention windows. Such progressive video denoising allows our models to autoregressively generate video frames without quality degradation or abrupt scene changes. We present state-of-the-art results on long video generation at 1 minute (1440 frames at 24 FPS). Videos from this paper are available at https://desaixie.github.io/pa-vdm/.

arxiv情報

著者 Desai Xie,Zhan Xu,Yicong Hong,Hao Tan,Difan Liu,Feng Liu,Arie Kaufman,Yang Zhou
発行日 2024-10-10 17:36:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG | コメントする

RayEmb: Arbitrary Landmark Detection in X-Ray Images Using Ray Embedding Subspace

要約

術前に取得した CT スキャンと X 線画像の術中の 2D-3D レジストレーションは、整形外科手術において重要な手順です。
CT ボリューム内で事前にアノテーションが付けられた解剖学的ランドマークを X 線画像で検出して 2D と 3D の対応関係を確立し、位置合わせに利用できます。
ただし、特定の視野角ではランドマークの視認性が低いため、登録が失敗することがよくあります。
我々は、X 線画像内の任意のランドマーク点を検出することにより、この問題に対処する新しい方法を提案します。
私たちのアプローチは、交差する光線に対応する特徴ベクトル (光線埋め込みと呼ばれる) によって形成される個別の部分空間として 3D 点を表します。
2D と 3D の対応関係を確立することは、特定の部分空間に近い光線埋め込みを見つけるタスクとなり、基本的に交差テストを実行します。
従来のランドマーク推定方法とは異なり、私たちのアプローチでは、固定ランドマークに手動で注釈を付ける必要がありません。
103 の CT ボリュームを含む CTPelvic1K CLINIC データセットから生成された合成画像を使用してモデルをトレーニングし、実際の X 線画像で構成される DeepFluoro データセットで評価しました。
実験結果は、従来の方法に対する我々の方法の優位性を示しています。
コードは https://github.com/Pragyanstha/rayemb で入手できます。

要約(オリジナル)

Intra-operative 2D-3D registration of X-ray images with pre-operatively acquired CT scans is a crucial procedure in orthopedic surgeries. Anatomical landmarks pre-annotated in the CT volume can be detected in X-ray images to establish 2D-3D correspondences, which are then utilized for registration. However, registration often fails in certain view angles due to poor landmark visibility. We propose a novel method to address this issue by detecting arbitrary landmark points in X-ray images. Our approach represents 3D points as distinct subspaces, formed by feature vectors (referred to as ray embeddings) corresponding to intersecting rays. Establishing 2D-3D correspondences then becomes a task of finding ray embeddings that are close to a given subspace, essentially performing an intersection test. Unlike conventional methods for landmark estimation, our approach eliminates the need for manually annotating fixed landmarks. We trained our model using the synthetic images generated from CTPelvic1K CLINIC dataset, which contains 103 CT volumes, and evaluated it on the DeepFluoro dataset, comprising real X-ray images. Experimental results demonstrate the superiority of our method over conventional methods. The code is available at https://github.com/Pragyanstha/rayemb.

arxiv情報

著者 Pragyan Shrestha,Chun Xie,Yuichi Yoshii,Itaru Kitahara
発行日 2024-10-10 17:36:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | コメントする

DART: Denoising Autoregressive Transformer for Scalable Text-to-Image Generation

要約

拡散モデルは、ビジュアル生成の主要なアプローチとなっています。
これらは、入力に徐々にノイズを追加するマルコフ プロセスのノイズを除去することによってトレーニングされます。
私たちは、マルコフ特性によりモデルが生成軌道を完全に利用する能力を制限し、トレーニングと推論の非効率につながると主張します。
この論文では、自己回帰 (AR) と拡散を非マルコフの枠組み内で統合するトランスフォーマー ベースのモデルである DART を提案します。
DART は、標準言語モデルと同じアーキテクチャを持つ AR モデルを使用して、画像パッチを空間的およびスペクトル的に繰り返しノイズ除去します。
DART は画像の量子化に依存しないため、柔軟性を維持しながらより効果的な画像モデリングが可能になります。
さらに、DART は、統一モデル内のテキスト データと画像データの両方を使用してシームレスにトレーニングします。
私たちのアプローチは、クラス条件付きタスクとテキストから画像への生成タスクで競争力のあるパフォーマンスを実証し、従来の拡散モデルに代わるスケーラブルで効率的な代替手段を提供します。
この統合フレームワークを通じて、DART はスケーラブルで高品質な画像合成の新しいベンチマークを設定します。

要約(オリジナル)

Diffusion models have become the dominant approach for visual generation. They are trained by denoising a Markovian process that gradually adds noise to the input. We argue that the Markovian property limits the models ability to fully utilize the generation trajectory, leading to inefficiencies during training and inference. In this paper, we propose DART, a transformer-based model that unifies autoregressive (AR) and diffusion within a non-Markovian framework. DART iteratively denoises image patches spatially and spectrally using an AR model with the same architecture as standard language models. DART does not rely on image quantization, enabling more effective image modeling while maintaining flexibility. Furthermore, DART seamlessly trains with both text and image data in a unified model. Our approach demonstrates competitive performance on class-conditioned and text-to-image generation tasks, offering a scalable, efficient alternative to traditional diffusion models. Through this unified framework, DART sets a new benchmark for scalable, high-quality image synthesis.

arxiv情報

著者 Jiatao Gu,Yuyang Wang,Yizhe Zhang,Qihang Zhang,Dinghuai Zhang,Navdeep Jaitly,Josh Susskind,Shuangfei Zhai
発行日 2024-10-10 17:41:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG | コメントする