Policy Optimized Text-to-Image Pipeline Design

要約

テキストからイメージの生成は、単一のモノリシックモデルを超えて複雑なマルチコンポーネントパイプラインに進化しています。
これらは、微調整された発電機、アダプター、アップスケーリングブロック、さらには編集手順を組み合わせて、画質の大幅な改善をもたらします。
ただし、それらの効果的な設計には、実質的な専門知識が必要です。
最近のアプローチでは、大規模な言語モデル(LLM)を通じてこのプロセスを自動化する際に有望であることが示されていますが、2つの重要な制限に悩まされています。数百の事前定義されたパイプラインで画像を生成することからの広範な計算要件と、記憶されたトレーニングの例を超えた一般化が不十分です。
これらの非効率性に対処する新しい強化学習ベースのフレームワークを紹介します。
私たちのアプローチは、最初に、プロンプトワークフローの組み合わせから画質スコアを直接予測できる報酬モデルのアンサンブルをトレーニングし、トレーニング中の費用のかかる画像生成の必要性を排除します。
次に、2フェーズトレーニング戦略を実装します。初期ワークフロー語彙トレーニングに続いて、GRPOベースの最適化を行い、モデルをワークフロースペースの高性能領域に導きます。
さらに、初期モデルとGRPOチューニングされたモデルの間のパスに沿って外挿する分類器のないガイダンスベースの強化技術を組み込み、出力品質をさらに向上させます。
一連の比較を通じてアプローチを検証し、既存のベースラインと比較して、多様性を高めて新しいフローを成功裏に作成し、優れた画質につながることを示しています。

要約(オリジナル)

Text-to-image generation has evolved beyond single monolithic models to complex multi-component pipelines. These combine fine-tuned generators, adapters, upscaling blocks and even editing steps, leading to significant improvements in image quality. However, their effective design requires substantial expertise. Recent approaches have shown promise in automating this process through large language models (LLMs), but they suffer from two critical limitations: extensive computational requirements from generating images with hundreds of predefined pipelines, and poor generalization beyond memorized training examples. We introduce a novel reinforcement learning-based framework that addresses these inefficiencies. Our approach first trains an ensemble of reward models capable of predicting image quality scores directly from prompt-workflow combinations, eliminating the need for costly image generation during training. We then implement a two-phase training strategy: initial workflow vocabulary training followed by GRPO-based optimization that guides the model toward higher-performing regions of the workflow space. Additionally, we incorporate a classifier-free guidance based enhancement technique that extrapolates along the path between the initial and GRPO-tuned models, further improving output quality. We validate our approach through a set of comparisons, showing that it can successfully create new flows with greater diversity and lead to superior image quality compared to existing baselines.

arxiv情報

著者 Uri Gadot,Rinon Gal,Yftah Ziser,Gal Chechik,Shie Mannor
発行日 2025-05-27 17:50:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | Policy Optimized Text-to-Image Pipeline Design はコメントを受け付けていません

MV-CoLight: Efficient Object Compositing with Consistent Lighting and Shadow Generation

要約

オブジェクトコンポジットは、拡張現実(AR)と具体化されたインテリジェンスアプリケーションに大きな約束を提供します。
既存のアプローチは、主に単一画像シナリオまたは固有の分解技術に焦点を当てており、マルチビューの一貫性、複雑なシーン、多様な照明条件で課題に直面しています。
3Dガウスベースの方法や拡散ベースの方法などの最近の逆レンダリングの進歩により、一貫性が向上しましたが、シーンごとのスケーラビリティ、重いデータ要件、または長時間の再構成時間によって制限されています。
その適用性を広げるために、2D画像と3Dシーンの両方で照明一貫性のあるオブジェクトを合成するための2段階のフレームワークであるMV-Colightを紹介します。
私たちの新しいフィードフォワードアーキテクチャは、拡散ベースの方法の反復バイアスを避けて、照明と影を直接モデル化します。
Hilbert Curveベースのマッピングを使用して、2D画像入力を3Dガウスシーンの表現とシームレスに揃えます。
トレーニングと評価を容易にするために、さらに大規模な3Dコンポジットデータセットを紹介します。
実験は、標準のベンチマークと当社のデータセット全体で最先端の調和した結果を実証します。また、実際のキャプチャされた現実世界のシーンは、フレームワークの堅牢性と幅広い一般化を示しています。

要約(オリジナル)

Object compositing offers significant promise for augmented reality (AR) and embodied intelligence applications. Existing approaches predominantly focus on single-image scenarios or intrinsic decomposition techniques, facing challenges with multi-view consistency, complex scenes, and diverse lighting conditions. Recent inverse rendering advancements, such as 3D Gaussian and diffusion-based methods, have enhanced consistency but are limited by scalability, heavy data requirements, or prolonged reconstruction time per scene. To broaden its applicability, we introduce MV-CoLight, a two-stage framework for illumination-consistent object compositing in both 2D images and 3D scenes. Our novel feed-forward architecture models lighting and shadows directly, avoiding the iterative biases of diffusion-based methods. We employ a Hilbert curve-based mapping to align 2D image inputs with 3D Gaussian scene representations seamlessly. To facilitate training and evaluation, we further introduce a large-scale 3D compositing dataset. Experiments demonstrate state-of-the-art harmonized results across standard benchmarks and our dataset, as well as casually captured real-world scenes demonstrate the framework’s robustness and wide generalization.

arxiv情報

著者 Kerui Ren,Jiayang Bai,Linning Xu,Lihan Jiang,Jiangmiao Pang,Mulin Yu,Bo Dai
発行日 2025-05-27 17:53:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | MV-CoLight: Efficient Object Compositing with Consistent Lighting and Shadow Generation はコメントを受け付けていません

Be Decisive: Noise-Induced Layouts for Multi-Subject Generation

要約

複数の異なる被験者を生成することは、既存のテキストから画像間拡散モデルの課題のままです。
複雑なプロンプトは、多くの場合、被験者の漏れにつながり、量、属性、視覚的な特徴の不正確さを引き起こします。
被験者間の漏れを防ぐには、各被験者の空間的位置に関する知識が必要です。
最近の方法は、外部レイアウト制御を介してこれらの空間位置を提供します。
ただし、そのような規定されたレイアウトを実施することは、サンプリングされた初期ノイズによって決定される生来のレイアウトと競合することが多く、モデルの事前との不整合につながります。
この作業では、初期ノイズから派生したプロンプトに沿った空間レイアウトを予測し、除去プロセス全体でそれを改良する新しいアプローチを導入します。
このノイズ誘発レイアウトに依存することにより、外部から課されたレイアウトとの競合を回避し、モデルの事前をよりよく保存します。
私たちの方法は、小さなニューラルネットワークを採用して、各除去ステップで進化するノイズ誘発レイアウトを予測および改良し、一貫性を維持しながら被験者間の明確な境界を確保します。
実験結果は、このノイズに合った戦略が、モデルの元の分布の豊富な多様性を維持しながら、既存のレイアウト誘導技術と比較して、テキストイメージの調整とより安定したマルチサブスク生成を達成することを示しています。

要約(オリジナル)

Generating multiple distinct subjects remains a challenge for existing text-to-image diffusion models. Complex prompts often lead to subject leakage, causing inaccuracies in quantities, attributes, and visual features. Preventing leakage among subjects necessitates knowledge of each subject’s spatial location. Recent methods provide these spatial locations via an external layout control. However, enforcing such a prescribed layout often conflicts with the innate layout dictated by the sampled initial noise, leading to misalignment with the model’s prior. In this work, we introduce a new approach that predicts a spatial layout aligned with the prompt, derived from the initial noise, and refines it throughout the denoising process. By relying on this noise-induced layout, we avoid conflicts with externally imposed layouts and better preserve the model’s prior. Our method employs a small neural network to predict and refine the evolving noise-induced layout at each denoising step, ensuring clear boundaries between subjects while maintaining consistency. Experimental results show that this noise-aligned strategy achieves improved text-image alignment and more stable multi-subject generation compared to existing layout-guided techniques, while preserving the rich diversity of the model’s original distribution.

arxiv情報

著者 Omer Dahary,Yehonathan Cohen,Or Patashnik,Kfir Aberman,Daniel Cohen-Or
発行日 2025-05-27 17:54:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.GR, cs.LG | Be Decisive: Noise-Induced Layouts for Multi-Subject Generation はコメントを受け付けていません

Frame In-N-Out: Unbounded Controllable Image-to-Video Generation

要約

制御可能性、時間的一貫性、および詳細合成は、ビデオ生成における最も重要な課題のままです。
このホワイトペーパーでは、フレームインおよびフレームアウトとして知られる一般的に使用されているが未定の映画のテクニックに焦点を当てています。
具体的には、画像からビデオへの生成から始めて、ユーザーは画像内のオブジェクトを制御して自然にシーンを離れるか、ユーザー指定のモーション軌跡によって導かれて、シーンを入力するために新しいアイデンティティ参照を壊すことができます。
このタスクをサポートするために、この設定をターゲットにした包括的な評価プロトコル、および効率的なアイデンティティを提供するモーション制御可能なビデオ拡散変圧器アーキテクチャをターゲットにした新しいデータセットを導入します。
私たちの評価は、提案されたアプローチが既存のベースラインを大幅に上回ることを示しています。

要約(オリジナル)

Controllability, temporal coherence, and detail synthesis remain the most critical challenges in video generation. In this paper, we focus on a commonly used yet underexplored cinematic technique known as Frame In and Frame Out. Specifically, starting from image-to-video generation, users can control the objects in the image to naturally leave the scene or provide breaking new identity references to enter the scene, guided by user-specified motion trajectory. To support this task, we introduce a new dataset curated semi-automatically, a comprehensive evaluation protocol targeting this setting, and an efficient identity-preserving motion-controllable video Diffusion Transformer architecture. Our evaluation shows that our proposed approach significantly outperforms existing baselines.

arxiv情報

著者 Boyang Wang,Xuweiyi Chen,Matheus Gadelha,Zezhou Cheng
発行日 2025-05-27 17:56:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Frame In-N-Out: Unbounded Controllable Image-to-Video Generation はコメントを受け付けていません

Adversarial Attacks against Closed-Source MLLMs via Feature Optimal Alignment

要約

マルチモーダル大手言語モデル(MLLM)は、譲渡可能な敵の例に対して脆弱なままです。
既存の方法は通常、グローバルな機能をClipの[CLS]トークンとターゲットサンプルの間に調整することにより、ターゲット攻撃を実現しますが、パッチトークンでエンコードされた豊富なローカル情報を見落としていることがよくあります。
これにより、特にクローズドソースモデルでは、最適ではないアライメントと限定的な転送可能性につながります。
この制限に対処するために、FOA-attackと呼ばれる機能の最適なアライメントに基づいて、敵対的な転送能力を改善するために、ターゲットを絞った転送可能な敵対的攻撃方法を提案します。
具体的には、グローバルレベルでは、コサインの類似性に基づいたグローバルな特徴損失を導入し、敵対サンプルの粗粒の特徴を標的サンプルの特徴と整列させます。
ローカルレベルでは、変圧器内の豊富なローカル表現を考えると、クラスタリング技術を活用して、コンパクトなローカルパターンを抽出して、冗長なローカル機能を軽減します。
次に、最適なトランスポート(OT)問題として敵対サンプルとターゲットサンプル間のローカルフィーチャのアライメントを策定し、地域のクラスタリング最適な輸送損失を提案して、細粒の特徴アライメントを改良します。
さらに、敵対的な例の生成中に複数のモデルの影響を適応的にバランスさせるために、動的なアンサンブルモデルの重み付け戦略を提案し、それにより移転性をさらに向上させます。
さまざまなモデルにわたる広範な実験は、提案された方法の優位性を示しており、特にクローズドソースMLLMに移行する際に最先端の方法を上回ります。
このコードは、https://github.com/jiaxiaojunqaq/foa-attackでリリースされています。

要約(オリジナル)

Multimodal large language models (MLLMs) remain vulnerable to transferable adversarial examples. While existing methods typically achieve targeted attacks by aligning global features-such as CLIP’s [CLS] token-between adversarial and target samples, they often overlook the rich local information encoded in patch tokens. This leads to suboptimal alignment and limited transferability, particularly for closed-source models. To address this limitation, we propose a targeted transferable adversarial attack method based on feature optimal alignment, called FOA-Attack, to improve adversarial transfer capability. Specifically, at the global level, we introduce a global feature loss based on cosine similarity to align the coarse-grained features of adversarial samples with those of target samples. At the local level, given the rich local representations within Transformers, we leverage clustering techniques to extract compact local patterns to alleviate redundant local features. We then formulate local feature alignment between adversarial and target samples as an optimal transport (OT) problem and propose a local clustering optimal transport loss to refine fine-grained feature alignment. Additionally, we propose a dynamic ensemble model weighting strategy to adaptively balance the influence of multiple models during adversarial example generation, thereby further improving transferability. Extensive experiments across various models demonstrate the superiority of the proposed method, outperforming state-of-the-art methods, especially in transferring to closed-source MLLMs. The code is released at https://github.com/jiaxiaojunQAQ/FOA-Attack.

arxiv情報

著者 Xiaojun Jia,Sensen Gao,Simeng Qin,Tianyu Pang,Chao Du,Yihao Huang,Xinfeng Li,Yiming Li,Bo Li,Yang Liu
発行日 2025-05-27 17:56:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Adversarial Attacks against Closed-Source MLLMs via Feature Optimal Alignment はコメントを受け付けていません

UI-Genie: A Self-Improving Approach for Iteratively Boosting MLLM-based Mobile GUI Agents

要約

このペーパーでは、GUIエージェントの2つの重要な課題に対処する自己改善フレームワークであるU-Genieを紹介します。軌跡の結果の検証は挑戦的であり、高品質のトレーニングデータはスケーラブルではありません。
これらの課題は、それぞれ報酬モデルと自己改善パイプラインによって対処されます。
報酬モデルであるUI-Genie-RMは、歴史的コンテキストを効率的にプロセスし、アクションレベルとタスクレベルの報酬を統一する画像テキストインターリーブアーキテクチャを備えています。
UI-Genie-RMのトレーニングを支援するために、ルールベースの検証、制御された軌跡の腐敗、硬性負のマイニングなど、意図的に設計されたデータ生成戦略を開発します。
2番目の課題に対処するために、自己改善パイプラインは、動的環境での報酬ガイド付きの探索と結果の検証を通じてエージェントモデルと報酬モデルの両方を強化することにより、ソルブ可能な複雑なGUIタスクを徐々に拡張します。
モデルをトレーニングするために、UI-Genie-RM-517KおよびUI-Genie-Agent-16Kを生成し、GUIエージェント向けの最初の報酬固有のデータセットを確立しながら、手動注釈なしで高品質の合成軌跡ジェネレーションを実証します。
実験結果は、UIジェニーが3世代のデータモデル自己改善を伴う複数のGUIエージェントベンチマークで最先端のパフォーマンスを達成することを示しています。
https://github.com/euphoria16/ui-genieでさらなる調査を促進するために、完全なフレームワークの実装と生成データセットを生成しました。

要約(オリジナル)

In this paper, we introduce UI-Genie, a self-improving framework addressing two key challenges in GUI agents: verification of trajectory outcome is challenging and high-quality training data are not scalable. These challenges are addressed by a reward model and a self-improving pipeline, respectively. The reward model, UI-Genie-RM, features an image-text interleaved architecture that efficiently pro- cesses historical context and unifies action-level and task-level rewards. To sup- port the training of UI-Genie-RM, we develop deliberately-designed data genera- tion strategies including rule-based verification, controlled trajectory corruption, and hard negative mining. To address the second challenge, a self-improvement pipeline progressively expands solvable complex GUI tasks by enhancing both the agent and reward models through reward-guided exploration and outcome verification in dynamic environments. For training the model, we generate UI- Genie-RM-517k and UI-Genie-Agent-16k, establishing the first reward-specific dataset for GUI agents while demonstrating high-quality synthetic trajectory gen- eration without manual annotation. Experimental results show that UI-Genie achieves state-of-the-art performance across multiple GUI agent benchmarks with three generations of data-model self-improvement. We open-source our complete framework implementation and generated datasets to facilitate further research in https://github.com/Euphoria16/UI-Genie.

arxiv情報

著者 Han Xiao,Guozhi Wang,Yuxiang Chai,Zimu Lu,Weifeng Lin,Hao He,Lue Fan,Liuyang Bian,Rui Hu,Liang Liu,Shuai Ren,Yafei Wen,Xiaoxin Chen,Aojun Zhou,Hongsheng Li
発行日 2025-05-27 17:58:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV, cs.LG | UI-Genie: A Self-Improving Approach for Iteratively Boosting MLLM-based Mobile GUI Agents はコメントを受け付けていません

Paper2Poster: Towards Multimodal Poster Automation from Scientific Papers

要約

アカデミックポスターの世代は、科学的コミュニケーションにおいて重要でありながら挑戦的なタスクであり、長いコンテキストインターリーブドキュメントを単一の視覚的に一貫したページに圧縮する必要があります。
この課題に対処するために、ポスター生成のための最初のベンチマークとメトリックスイートを紹介します。これは、最近のカンファレンスペーパーと著者が設計したポスターと組み合わせて、(i)視覚的品質セマンチックなアライメントと人間のポスターとのアウトプットを評価します。
(iv)PaperQuiz-生成されたクイズに応答するVLMSで測定されたコアペーパーコンテンツを伝えるポスターの能力。
このベンチマークに基づいて、トップダウンのループ内のマルチエージェントパイプラインであるPosteragentを提案します。
(b)プランナーは、読み取り順序と空間バランスを保持するテキスト視覚ペアをバイナリツリーレイアウトに並べます。
(c)ペインターコモン剤ループは、レンダリングコードを実行し、VLMフィードバックを使用してオーバーフローを排除し、アライメントを確保することにより、各パネルを改良します。
包括的な評価では、GPT-4O出力は、一見した展示で視覚的に魅力的であることがわかりますが、最初は騒々しいテキストと貧弱なペーパークイズスコアがあります。また、人間が設計したポスターは、意味を伝えるための視覚的なセマンティックに大きく依存しているため、読者のエンゲージメントが主要な審美的なボトルネックであることがわかります。
完全にオープンソースのバリエーション(QWEN-2.5シリーズに基づく)は、ほぼすべてのメトリックで既存の4o駆動型マルチエージェントシステムを上回り、87%少ないトークンを使用します。
22ページの論文を最終的に編集可能な.pptxポスターに変換します – すべて$ 0.005です。
これらの調査結果は、次世代の完全に自動化されたポスタージェネレーションモデルの明確な方向を示しています。
コードとデータセットは、https://github.com/paper2poster/paper2opterで入手できます。

要約(オリジナル)

Academic poster generation is a crucial yet challenging task in scientific communication, requiring the compression of long-context interleaved documents into a single, visually coherent page. To address this challenge, we introduce the first benchmark and metric suite for poster generation, which pairs recent conference papers with author-designed posters and evaluates outputs on (i)Visual Quality-semantic alignment with human posters, (ii)Textual Coherence-language fluency, (iii)Holistic Assessment-six fine-grained aesthetic and informational criteria scored by a VLM-as-judge, and notably (iv)PaperQuiz-the poster’s ability to convey core paper content as measured by VLMs answering generated quizzes. Building on this benchmark, we propose PosterAgent, a top-down, visual-in-the-loop multi-agent pipeline: the (a)Parser distills the paper into a structured asset library; the (b)Planner aligns text-visual pairs into a binary-tree layout that preserves reading order and spatial balance; and the (c)Painter-Commenter loop refines each panel by executing rendering code and using VLM feedback to eliminate overflow and ensure alignment. In our comprehensive evaluation, we find that GPT-4o outputs-though visually appealing at first glance-often exhibit noisy text and poor PaperQuiz scores, and we find that reader engagement is the primary aesthetic bottleneck, as human-designed posters rely largely on visual semantics to convey meaning. Our fully open-source variants (e.g. based on the Qwen-2.5 series) outperform existing 4o-driven multi-agent systems across nearly all metrics, while using 87% fewer tokens. It transforms a 22-page paper into a finalized yet editable .pptx poster – all for just $0.005. These findings chart clear directions for the next generation of fully automated poster-generation models. The code and datasets are available at https://github.com/Paper2Poster/Paper2Poster.

arxiv情報

著者 Wei Pang,Kevin Qinghong Lin,Xiangru Jian,Xi He,Philip Torr
発行日 2025-05-27 17:58:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV, cs.MA | Paper2Poster: Towards Multimodal Poster Automation from Scientific Papers はコメントを受け付けていません

ViewSpatial-Bench: Evaluating Multi-perspective Spatial Localization in Vision-Language Models

要約

ビジョン言語モデル(VLM)は、視覚コンテンツについての理解と推論において顕著な能力を実証していますが、クロスビューポイントの理解と空間的推論を必要とするタスクには大きな課題があります。
重要な制限を特定します。現在のVLMSは、主に自己中心的な空間推論(カメラの観点から)で優れていますが、別のエンティティの空間的な参照フレームを採用するために必要な場合、配分の視点に一般化することができません。
正確な方向ラベルを生成する自動3D解釈パイプラインによってサポートされている5つの異なるタスクタイプにわたって、マルチビューポイント空間ローカリゼーション認識評価のために特別に設計された最初の包括的なベンチマークであるViewSpatial-Benchを紹介します。
Viewspatial-Benchでの多様なVLMの包括的な評価は、大きなパフォーマンスの格差を明らかにしています。モデルはカメラの視点タスクで合理的なパフォーマンスを示しますが、人間の観点から推論すると精度が低下します。
マルチパース視点の空間データセットでVLMを微調整することにより、タスク全体で46.24%の全体的なパフォーマンス改善を達成し、アプローチの有効性を強調します。
私たちの研究は、具体化されたAIシステムにおける空間インテリジェンスの重要なベンチマークを確立し、3D空間関係をモデリングすることでVLMの対応する空間的理解能力が強化されるという経験的証拠を提供します。

要約(オリジナル)

Vision-language models (VLMs) have demonstrated remarkable capabilities in understanding and reasoning about visual content, but significant challenges persist in tasks requiring cross-viewpoint understanding and spatial reasoning. We identify a critical limitation: current VLMs excel primarily at egocentric spatial reasoning (from the camera’s perspective) but fail to generalize to allocentric viewpoints when required to adopt another entity’s spatial frame of reference. We introduce ViewSpatial-Bench, the first comprehensive benchmark designed specifically for multi-viewpoint spatial localization recognition evaluation across five distinct task types, supported by an automated 3D annotation pipeline that generates precise directional labels. Comprehensive evaluation of diverse VLMs on ViewSpatial-Bench reveals a significant performance disparity: models demonstrate reasonable performance on camera-perspective tasks but exhibit reduced accuracy when reasoning from a human viewpoint. By fine-tuning VLMs on our multi-perspective spatial dataset, we achieve an overall performance improvement of 46.24% across tasks, highlighting the efficacy of our approach. Our work establishes a crucial benchmark for spatial intelligence in embodied AI systems and provides empirical evidence that modeling 3D spatial relationships enhances VLMs’ corresponding spatial comprehension capabilities.

arxiv情報

著者 Dingming Li,Hongxing Li,Zixuan Wang,Yuchen Yan,Hang Zhang,Siqi Chen,Guiyang Hou,Shengpei Jiang,Wenqi Zhang,Yongliang Shen,Weiming Lu,Yueting Zhuang
発行日 2025-05-27 17:59:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV | ViewSpatial-Bench: Evaluating Multi-perspective Spatial Localization in Vision-Language Models はコメントを受け付けていません

Vision Transformers with Self-Distilled Registers

要約

ビジョントランス(VIT)は、視覚処理タスクの支配的なアーキテクチャとして浮上しており、トレーニングデータとモデルサイズの増加により優れたスケーラビリティを示しています。
しかし、最近の研究により、地元のセマンティクスと不一致のvitsでのアーティファクトトークンの出現が特定されています。
これらの異常なトークンは、細粒の局在化または構造的一貫性を必要とするタスクでVITパフォーマンスを低下させます。
この問題の効果的な緩和は、トレーニング中に登録用トークンを登録しているため、トレーニング中にアーティファクトの用語を暗黙的に「吸収」することです。
この論文では、さまざまな大規模な事前に訓練されたVITが利用できることを考えると、このような登録トークンをゼロから再訓練する必要なく装備することを目指しています。
具体的には、追加のラベル付きデータと完全な再訓練を必要とせずに、レジスタを既存のVITに統合する効率的な自己抵抗法である事後レジスタ(PH-REG)を提案します。
PH-Regは、同じ事前に訓練されたVITから教師ネットワークと学生ネットワークの両方を初期化します。
教師は凍結されていないままであり、生徒はランダムに初期化されたレジスタトークンで増強されます。
教師の入力にテスト時間の増強を適用することにより、アーティファクトがない密集した密な埋め込みを生成し、ロックされていない学生重量の小さなサブセットのみを最適化するために使用されます。
私たちのアプローチは、アーティファクトトークンの数を効果的に減らし、ゼロショットおよび線形プロービングの下で​​の学生VITのセグメンテーションと深さ予測を改善できることを示しています。

要約(オリジナル)

Vision Transformers (ViTs) have emerged as the dominant architecture for visual processing tasks, demonstrating excellent scalability with increased training data and model size. However, recent work has identified the emergence of artifact tokens in ViTs that are incongruous with the local semantics. These anomalous tokens degrade ViT performance in tasks that require fine-grained localization or structural coherence. An effective mitigation of this issue is to the addition of register tokens to ViTs, which implicitly ‘absorb’ the artifact term during training. Given the availability of various large-scale pre-trained ViTs, in this paper we aim at equipping them with such register tokens without the need of re-training them from scratch, which is infeasible considering their size. Specifically, we propose Post Hoc Registers (PH-Reg), an efficient self-distillation method that integrates registers into an existing ViT without requiring additional labeled data and full retraining. PH-Reg initializes both teacher and student networks from the same pre-trained ViT. The teacher remains frozen and unmodified, while the student is augmented with randomly initialized register tokens. By applying test-time augmentation to the teacher’s inputs, we generate denoised dense embeddings free of artifacts, which are then used to optimize only a small subset of unlocked student weights. We show that our approach can effectively reduce the number of artifact tokens, improving the segmentation and depth prediction of the student ViT under zero-shot and linear probing.

arxiv情報

著者 Yinjie Chen,Zipeng Yan,Chong Zhou,Bo Dai,Andrew F. Luo
発行日 2025-05-27 17:59:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Vision Transformers with Self-Distilled Registers はコメントを受け付けていません

Generalizable and Relightable Gaussian Splatting for Human Novel View Synthesis

要約

私たちは、多様な照明条件下での高忠実度の人間の新規ビューの統合のための一般化可能で信頼できる3DガウスフレームワークであるGRGSを提案します。
Characterごとの最適化に依存している、または物理的な制約を無視する既存の方法とは異なり、GRGSは、マルチビュー2D観測から3Dガウス表現にジオメトリ、材料、照明の手がかりを投影するフィードフォワード、完全に監視された戦略を採用しています。
具体的には、照明不変のジオメトリを再構築するために、合成的に信頼できるデータでトレーニングされた照明認識ジオメトリの改良(LGR)モジュールを導入して、正確な深さと表面の正常を予測します。
高品質のジオメトリに基づいて、物理的に接地されたニューラルレンダリング(PGNR)モジュールが、神経予測を物理ベースのシェーディングと統合するためにさらに提案され、影と間接照明で編集可能な再生をサポートします。
その上、私たちは、明示的な光線トレースの計算コストを緩和する、周囲の閉塞、直接、および間接照明マップから微分可能な監督を活用する2Dから3D投影トレーニングスキームを設計します。
広範な実験は、GRGがキャラクターや照明条件全体で優れた視覚品質、幾何学的な一貫性、一般化を達成することを示しています。

要約(オリジナル)

We propose GRGS, a generalizable and relightable 3D Gaussian framework for high-fidelity human novel view synthesis under diverse lighting conditions. Unlike existing methods that rely on per-character optimization or ignore physical constraints, GRGS adopts a feed-forward, fully supervised strategy that projects geometry, material, and illumination cues from multi-view 2D observations into 3D Gaussian representations. Specifically, to reconstruct lighting-invariant geometry, we introduce a Lighting-aware Geometry Refinement (LGR) module trained on synthetically relit data to predict accurate depth and surface normals. Based on the high-quality geometry, a Physically Grounded Neural Rendering (PGNR) module is further proposed to integrate neural prediction with physics-based shading, supporting editable relighting with shadows and indirect illumination. Besides, we design a 2D-to-3D projection training scheme that leverages differentiable supervision from ambient occlusion, direct, and indirect lighting maps, which alleviates the computational cost of explicit ray tracing. Extensive experiments demonstrate that GRGS achieves superior visual quality, geometric consistency, and generalization across characters and lighting conditions.

arxiv情報

著者 Yipengjing Sun,Chenyang Wang,Shunyuan Zheng,Zonglin Li,Shengping Zhang,Xiangyang Ji
発行日 2025-05-27 17:59:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Generalizable and Relightable Gaussian Splatting for Human Novel View Synthesis はコメントを受け付けていません