High-Quality 3D Creation from A Single Image Using Subject-Specific Knowledge Prior

要約

この論文では、単一の画像から高品質の3Dモデルを生成するための新しい2段階のアプローチを提示することにより、多様な3Dデータの希少性によって引き起こされるロボット工学の重要なボトルネックに対処します。
この方法は、特に一般的な画像データセットと比較してさまざまなオブジェクトタイプが現在制限されているロボット工学データセットの場合、3Dアセット作成を効率的に拡張する必要性に動機付けられています。
主に一般的な拡散前に依存している以前の方法とは異なり、多くの場合、参照イメージと一致するのに苦労しているため、このアプローチは主題固有の事前知識をもたらします。
幾何学とテクスチャの両方にサブジェクト固有のプリエを組み込むことにより、生成された3Dコンテンツと参照オブジェクトの間の正確なアラインメントを確保します。
具体的には、NERF最適化プロセスに前にシェーディングモードを覚めることを導入し、粗い出力のジオメトリと精製テクスチャーを強化して、優れた品質を実現します。
広範な実験は、私たちの方法が以前のアプローチを大幅に上回ることを示しています。

要約(オリジナル)

In this paper, we address the critical bottleneck in robotics caused by the scarcity of diverse 3D data by presenting a novel two-stage approach for generating high-quality 3D models from a single image. This method is motivated by the need to efficiently expand 3D asset creation, particularly for robotics datasets, where the variety of object types is currently limited compared to general image datasets. Unlike previous methods that primarily rely on general diffusion priors, which often struggle to align with the reference image, our approach leverages subject-specific prior knowledge. By incorporating subject-specific priors in both geometry and texture, we ensure precise alignment between the generated 3D content and the reference object. Specifically, we introduce a shading mode-aware prior into the NeRF optimization process, enhancing the geometry and refining texture in the coarse outputs to achieve superior quality. Extensive experiments demonstrate that our method significantly outperforms prior approaches.

arxiv情報

著者 Nan Huang,Ting Zhang,Yuhui Yuan,Dong Chen,Shanghang Zhang
発行日 2025-02-19 18:45:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | High-Quality 3D Creation from A Single Image Using Subject-Specific Knowledge Prior はコメントを受け付けていません

IP-Composer: Semantic Composition of Visual Concepts

要約

コンテンツクリエーターは、多くの場合、複数の視覚ソースからインスピレーションを引き出し、異なる要素を組み合わせて新しい構成を作成します。
現在、現代の計算アプローチは、この基本的な創造プロセスをエミュレートすることを目指しています。
最近の拡散モデルはテキスト誘導組成合成に優れていますが、媒体としてのテキストには、視覚的な詳細に対する正確な制御がしばしば欠けています。
画像ベースの構成アプローチは、より微妙な機能をキャプチャできますが、既存の方法は通常、キャプチャできる概念の範囲が制限されており、高価なトレーニング手順または専門データが必要です。
私たちは、各画像から抽出される概念を記述するために自然言語を使用しながら、複数の画像参照を同時に活用する構成画像生成のための新しいトレーニングフリーのアプローチであるIP-Composerを提示します。
私たちの方法は、入力画像のクリップ埋め込みに条件付けられた新しい画像を合成するIPアダプターに基づいています。
このアプローチは、複数の入力画像の投影からテキストを介して識別されたコンセプト固有のクリップサブスペースに縫われた複合埋め込みを作成することにより、複数の視覚入力に拡張します。
包括的な評価を通じて、私たちのアプローチにより、より広い範囲の視覚的概念構成をより正確に制御できることが示されます。

要約(オリジナル)

Content creators often draw inspiration from multiple visual sources, combining distinct elements to craft new compositions. Modern computational approaches now aim to emulate this fundamental creative process. Although recent diffusion models excel at text-guided compositional synthesis, text as a medium often lacks precise control over visual details. Image-based composition approaches can capture more nuanced features, but existing methods are typically limited in the range of concepts they can capture, and require expensive training procedures or specialized data. We present IP-Composer, a novel training-free approach for compositional image generation that leverages multiple image references simultaneously, while using natural language to describe the concept to be extracted from each image. Our method builds on IP-Adapter, which synthesizes novel images conditioned on an input image’s CLIP embedding. We extend this approach to multiple visual inputs by crafting composite embeddings, stitched from the projections of multiple input images onto concept-specific CLIP-subspaces identified through text. Through comprehensive evaluation, we show that our approach enables more precise control over a larger range of visual concept compositions.

arxiv情報

著者 Sara Dorfman,Dana Cohen-Bar,Rinon Gal,Daniel Cohen-Or
発行日 2025-02-19 18:49:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.GR | IP-Composer: Semantic Composition of Visual Concepts はコメントを受け付けていません

IM360: Textured Mesh Reconstruction for Large-scale Indoor Mapping with 360$^\circ$ Cameras

要約

屋内環境の3Dマッピングとレンダリング用の360 $^\ circ $カメラ用の新しい3D再構成パイプラインを紹介します。
伝統的な構造からの構造からの構造(SFM)メソッドは、大規模な屋内シーンでは、質感がなく反復的な領域が普及しているため、うまく機能しない場合があります。
これらの課題を克服するために、私たちのアプローチ(IM360)は、全方向性画像の広い視野を活用し、球状カメラモデルをSFMパイプラインのすべてのコアコンポーネントに統合します。
包括的な3D再構成ソリューションを開発するために、神経暗黙の表面再構成技術を統合して、まばらな入力データから高品質の表面を生成します。
さらに、メッシュベースのニューラルレンダリングアプローチを利用して、テクスチャマップを改良し、拡散コンポーネントと鏡面コンポーネントを組み合わせてビュー依存性を正確にキャプチャします。
MatterPort3DおよびStanford2D3Dデータセットの大規模な屋内シーンでパイプラインを評価します。
実際には、IM360は、SOTAを介したテクスチャメッシュの再構築に関して優れた性能を示しています。
カメラのローカリゼーションと登録の観点から、および高頻度の詳細をレンダリングするという点で、精度の改善が観察されます。

要約(オリジナル)

We present a novel 3D reconstruction pipeline for 360$^\circ$ cameras for 3D mapping and rendering of indoor environments. Traditional Structure-from-Motion (SfM) methods may not work well in large-scale indoor scenes due to the prevalence of textureless and repetitive regions. To overcome these challenges, our approach (IM360) leverages the wide field of view of omnidirectional images and integrates the spherical camera model into every core component of the SfM pipeline. In order to develop a comprehensive 3D reconstruction solution, we integrate a neural implicit surface reconstruction technique to generate high-quality surfaces from sparse input data. Additionally, we utilize a mesh-based neural rendering approach to refine texture maps and accurately capture view-dependent properties by combining diffuse and specular components. We evaluate our pipeline on large-scale indoor scenes from the Matterport3D and Stanford2D3D datasets. In practice, IM360 demonstrate superior performance in terms of textured mesh reconstruction over SOTA. We observe accuracy improvements in terms of camera localization and registration as well as rendering high frequency details.

arxiv情報

著者 Dongki Jung,Jaehoon Choi,Yonghan Lee,Dinesh Manocha
発行日 2025-02-19 18:52:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | IM360: Textured Mesh Reconstruction for Large-scale Indoor Mapping with 360$^\circ$ Cameras はコメントを受け付けていません

A Training-Free Framework for Precise Mobile Manipulation of Small Everyday Objects

要約

毎日のモバイル操作タスクの多くは、ノブをつかんでキャビネットを開いたり、ライトスイッチを押したりするなど、小さなオブジェクトとの正確な相互作用が必要です。
このペーパーでは、モバイルマニピュレーターが小さなオブジェクトの操作を含むこのような正確なタスクに取り組むことを可能にする閉ループトレーニングフリーのフレームワークであるビジョンモデル(SVM)を使用してサーボを開発します。
SVMはRGB-Dリストカメラを採用し、視覚サーボを使用してコントロールします。
私たちの目新しさは、最先端のビジョンモデルを使用して、エンドエフェクターのために、多様なタスクとオクルージョンのために、リスト画像から3Dターゲットを確実に計算することにあります。
閉塞アーティファクトを緩和するために、ビジョンモデルを使用してエンドエフェクターを塗りつぶし、ターゲットのローカリゼーションを大幅に向上させます。
アウトペインティング方法の支援を受けていることを実証します。オープンボキャブラリーオブジェクト検出器は、セマンティックターゲット(ノブなど)を識別するためのドロップインモジュールとして機能し、ポイント追跡方法がユーザーのクリックによって示される相互作用サイトを確実に追跡できることを実証します。
このトレーニングフリーの方法では、現実世界の新しい環境で目に見えないオブジェクトを操作する際の85%のゼロショット成功率を取得し、オープンループ制御方法と50の絶対成功率で1000+デモンストレーションでトレーニングされた模倣学習ベースラインを上回る
%。

要約(オリジナル)

Many everyday mobile manipulation tasks require precise interaction with small objects, such as grasping a knob to open a cabinet or pressing a light switch. In this paper, we develop Servoing with Vision Models (SVM), a closed-loop training-free framework that enables a mobile manipulator to tackle such precise tasks involving the manipulation of small objects. SVM employs an RGB-D wrist camera and uses visual servoing for control. Our novelty lies in the use of state-of-the-art vision models to reliably compute 3D targets from the wrist image for diverse tasks and under occlusion due to the end-effector. To mitigate occlusion artifacts, we employ vision models to out-paint the end-effector thereby significantly enhancing target localization. We demonstrate that aided by out-painting methods, open-vocabulary object detectors can serve as a drop-in module to identify semantic targets (e.g. knobs) and point tracking methods can reliably track interaction sites indicated by user clicks. This training-free method obtains an 85% zero-shot success rate on manipulating unseen objects in novel environments in the real world, outperforming an open-loop control method and an imitation learning baseline trained on 1000+ demonstrations by an absolute success rate of 50%.

arxiv情報

著者 Arjun Gupta,Rishik Sathua,Saurabh Gupta
発行日 2025-02-19 18:59:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG, cs.RO | A Training-Free Framework for Precise Mobile Manipulation of Small Everyday Objects はコメントを受け付けていません

FlexTok: Resampling Images into 1D Token Sequences of Flexible Length

要約

画像トークン化により、生のピクセルよりも処理するのが効率的な圧縮された離散表現を提供することにより、自己回帰画像生成の大きな進歩が可能になりました。
従来のアプローチでは2Dグリッドトークン化を使用していますが、Titokのような最近の方法では、1Dトークン化がグリッド冗長性を排除することで高生成品質を達成できることが示されています。
ただし、これらの方法は通常、固定数のトークンを使用するため、画像の固有の複雑さに適応することはできません。
2Dイメージを可変長、注文した1Dトークンシーケンスに投影するトークンザーであるFlextokを紹介します。
たとえば、256×256の画像は、情報を階層的かつ意味的に圧縮して、1〜256個の離散トークンに再サンプリングできます。
整流フローモデルをデコーダーとしてトレーニングし、ネストされたドロップアウトを使用することにより、Flextokは選択したトークンシーケンスの長さに関係なくもっともらしい再構成を生成します。
シンプルなGPTスタイルの変圧器を使用して、自己回帰の生成設定でアプローチを評価します。
Imagenetでは、このアプローチは8〜128トークンにわたってFID <2を達成し、ティトックを上回り、トークンがはるかに少ない最先端の方法を一致させます。 さらに、モデルをテキストコンディショニングされた画像生成にサポートし、Flextokが従来の2Dトークン化とどのように関連するかを調べるためにモデルを拡張します。 重要な発見は、flextokが次のトークンの予測が粗から微細な「視覚語彙」で画像を記述することを可能にし、生成するトークンの数は生成タスクの複雑さに依存することです。

要約(オリジナル)

Image tokenization has enabled major advances in autoregressive image generation by providing compressed, discrete representations that are more efficient to process than raw pixels. While traditional approaches use 2D grid tokenization, recent methods like TiTok have shown that 1D tokenization can achieve high generation quality by eliminating grid redundancies. However, these methods typically use a fixed number of tokens and thus cannot adapt to an image’s inherent complexity. We introduce FlexTok, a tokenizer that projects 2D images into variable-length, ordered 1D token sequences. For example, a 256×256 image can be resampled into anywhere from 1 to 256 discrete tokens, hierarchically and semantically compressing its information. By training a rectified flow model as the decoder and using nested dropout, FlexTok produces plausible reconstructions regardless of the chosen token sequence length. We evaluate our approach in an autoregressive generation setting using a simple GPT-style Transformer. On ImageNet, this approach achieves an FID<2 across 8 to 128 tokens, outperforming TiTok and matching state-of-the-art methods with far fewer tokens. We further extend the model to support to text-conditioned image generation and examine how FlexTok relates to traditional 2D tokenization. A key finding is that FlexTok enables next-token prediction to describe images in a coarse-to-fine 'visual vocabulary', and that the number of tokens to generate depends on the complexity of the generation task.

arxiv情報

著者 Roman Bachmann,Jesse Allardice,David Mizrahi,Enrico Fini,Oğuzhan Fatih Kar,Elmira Amirloo,Alaaeldin El-Nouby,Amir Zamir,Afshin Dehghan
発行日 2025-02-19 18:59:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG | FlexTok: Resampling Images into 1D Token Sequences of Flexible Length はコメントを受け付けていません

Betsu-Betsu: Multi-View Separable 3D Reconstruction of Two Interacting Objects

要約

マルチビューRGB画像からの複数のオブジェクトの分離可能な3D再構築 – 2つのオブジェクトの2つの異なる3D形状がそれらの間を明確に分離しているため、まばらに研究された問題のままです。
重度の相互閉塞とオブジェクトの相互作用境界に沿ったあいまいさのために挑戦的です。
このホワイトペーパーでは、設定を調査し、3Dでの両方の分離を行いながら、密接な相互作用を経験しながら2つのオブジェクトのジオメトリと外観を再構築できる新しい神経インマプリティメソッドを導入します。
このフレームワークは、エンドツーエンドのトレーニング可能であり、極端な閉塞の下でも2つの形状が十分に分離されることを保証する新しいアルファブレンドの正規化を使用して監督できます。
再構築方法はマーカーレスであり、剛性および明確なオブジェクトに適用できます。
人間とオブジェクトの間の緊密な相互作用で構成される新しいデータセットを紹介し、武道を演じる人間の2つのシーンでも評価します。
この実験は、私たちのフレームワークの有効性と、3Dと新しいビュー合成メトリックを使用した大幅な改善を確認し、設定で適用されるいくつかの既存のアプローチと比較しています。

要約(オリジナル)

Separable 3D reconstruction of multiple objects from multi-view RGB images — resulting in two different 3D shapes for the two objects with a clear separation between them — remains a sparsely researched problem. It is challenging due to severe mutual occlusions and ambiguities along the objects’ interaction boundaries. This paper investigates the setting and introduces a new neuro-implicit method that can reconstruct the geometry and appearance of two objects undergoing close interactions while disjoining both in 3D, avoiding surface inter-penetrations and enabling novel-view synthesis of the observed scene. The framework is end-to-end trainable and supervised using a novel alpha-blending regularisation that ensures that the two geometries are well separated even under extreme occlusions. Our reconstruction method is markerless and can be applied to rigid as well as articulated objects. We introduce a new dataset consisting of close interactions between a human and an object and also evaluate on two scenes of humans performing martial arts. The experiments confirm the effectiveness of our framework and substantial improvements using 3D and novel view synthesis metrics compared to several existing approaches applicable in our setting.

arxiv情報

著者 Suhas Gopal,Rishabh Dabral,Vladislav Golyanik,Christian Theobalt
発行日 2025-02-19 18:59:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Betsu-Betsu: Multi-View Separable 3D Reconstruction of Two Interacting Objects はコメントを受け付けていません

A Frontier AI Risk Management Framework: Bridging the Gap Between Current AI Practices and Established Risk Management

要約

強力なAIシステムの最近の開発は、AI業界における堅牢なリスク管理フレームワークの必要性を強調しています。
企業は安全フレームワークを実装し始めていますが、現在のアプローチには、他の高リスク産業で見られる体系的な厳密さがしばしば欠けています。
このペーパーでは、確立されたリスク管理の原則を新たなAI固有の実践と統合することにより、このギャップを橋渡しするフロンティアAIの開発のための包括的なリスク管理フレームワークを提示します。
フレームワークは、(1)リスクの識別(文献レビュー、オープンエンドの赤チーム化、およびリスクモデリングを通じて)、(2)定量的メトリックと明確に定義されたしきい値を使用したリスク分析と評価、(3)リスク治療を使用した4つの重要なコンポーネントで構成されています。
封じ込め、展開制御、保証プロセスなどの緩和策、および(4)明確な組織構造と説明責任を確立するリスクガバナンスを通じて。
AIの独自の課題を考慮しながら、航空や原子力などの成熟した産業のベストプラクティスから引き出されたこのフレームワークは、AI開発者に堅牢なリスク管理を実装するための実用的なガイドラインを提供します。
このペーパーでは、AIシステムのライフサイクル全体で、計画から展開まで、各コンポーネントをどのように実装すべきかを詳しく説明し、それに関連する負担を最小限に抑えるために、最終的なトレーニング実行の前にリスク管理作業を実施することの重要性と実現可能性を強調しています。

要約(オリジナル)

The recent development of powerful AI systems has highlighted the need for robust risk management frameworks in the AI industry. Although companies have begun to implement safety frameworks, current approaches often lack the systematic rigor found in other high-risk industries. This paper presents a comprehensive risk management framework for the development of frontier AI that bridges this gap by integrating established risk management principles with emerging AI-specific practices. The framework consists of four key components: (1) risk identification (through literature review, open-ended red-teaming, and risk modeling), (2) risk analysis and evaluation using quantitative metrics and clearly defined thresholds, (3) risk treatment through mitigation measures such as containment, deployment controls, and assurance processes, and (4) risk governance establishing clear organizational structures and accountability. Drawing from best practices in mature industries such as aviation or nuclear power, while accounting for AI’s unique challenges, this framework provides AI developers with actionable guidelines for implementing robust risk management. The paper details how each component should be implemented throughout the life-cycle of the AI system – from planning through deployment – and emphasizes the importance and feasibility of conducting risk management work prior to the final training run to minimize the burden associated with it.

arxiv情報

著者 Simeon Campos,Henry Papadatos,Fabien Roger,Chloé Touzet,Otter Quarks,Malcolm Murray
発行日 2025-02-19 16:05:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI | A Frontier AI Risk Management Framework: Bridging the Gap Between Current AI Practices and Established Risk Management はコメントを受け付けていません

Selective Reviews of Bandit Problems in AI via a Statistical View

要約

Rehnection Learning(RL)は、環境との相互作用を通じて、教育エージェントの意思決定に焦点を当てた人工知能の広く研究されている領域です。
重要なサブセットには、確率的マルチアライムバンディット(MAB)と連続装甲盗賊(SCAB)の問題が含まれ、不確実性の下でのシーケンシャルな意思決定をモデル化します。
このレビューでは、盗賊問題の基礎モデルと仮定の概要を示し、濃度の不平等やミニマックスの後悔の境界などの非矛盾のある理論的ツールを調査し、探査と搾取のトレードオフを管理するための頻繁なアルゴリズムとベイジアンアルゴリズムを比較します。
さらに、Kでっている文脈的盗賊とかさぶたを探索し、その方法論と後悔の分析に焦点を当てています。
また、SCABの問題と機能データ分析の間の接続を調べます。
最後に、現場での最近の進歩と継続的な課題を強調します。

要約(オリジナル)

Reinforcement Learning (RL) is a widely researched area in artificial intelligence that focuses on teaching agents decision-making through interactions with their environment. A key subset includes stochastic multi-armed bandit (MAB) and continuum-armed bandit (SCAB) problems, which model sequential decision-making under uncertainty. This review outlines the foundational models and assumptions of bandit problems, explores non-asymptotic theoretical tools like concentration inequalities and minimax regret bounds, and compares frequentist and Bayesian algorithms for managing exploration-exploitation trade-offs. Additionally, we explore K-armed contextual bandits and SCAB, focusing on their methodologies and regret analyses. We also examine the connections between SCAB problems and functional data analysis. Finally, we highlight recent advances and ongoing challenges in the field.

arxiv情報

著者 Pengjie Zhou,Haoyu Wei,Huiming Zhang
発行日 2025-02-19 18:48:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, econ.EM, math.PR, stat.ML | Selective Reviews of Bandit Problems in AI via a Statistical View はコメントを受け付けていません

Can a Single Model Master Both Multi-turn Conversations and Tool Use? CoALM: A Unified Conversational Agentic Language Model

要約

APIコール機能を備えた大規模な言語モデル(LLMS)により、効果的な言語エージェント(LA)の構築が可能になり、従来のタスク指向の対話(TOD)パラダイムに革命をもたらしました。
ただし、現在のアプローチは重大なジレンマに直面しています。TODシステムは、限られたターゲットAPIのセットでトレーニングされることがよく、新しいサービスとインターフェースするときに品質を維持するために新しいデータが必要になりますが、LAはマルチターン会話を介してユーザーの意図を維持するように訓練されていません。
堅牢なマルチターン管理と高度な関数呼び出しの両方が効果的な会話エージェントにとって重要であるため、これらのスキルを3つの一般的なベンチマークで評価します:MultiWoz 2.4(TOD)、BFCL V3(LA)、およびAPI-Bank(LA)、および分析
特殊なアプローチが1つのドメインで優れているが、もう一方のドメインではパフォーマンスが低いことを明らかにします。
この割れ目を橋渡しするために、会話能力とエージェント機能の両方を統合する統合されたアプローチであるCoalm(会話エージェント言語モデル)を紹介します。
Coalm-ITを作成しました。これは、複雑なAPI使用量を備えたマルチターン反応推論をインターリーブする慎重に構築されたマルチタスクデータセットを作成しました。
Coalm-ITを使用して、3つのベンチマークすべてにわたってGPT-4Oを含むトップドメイン固有のモデルよりも優れた3つのモデルCoalm 8B、Coalm 70B、およびCoalm 405Bをトレーニングします。
これは、TODとLAの両方に対する単一のモデルアプローチの実現可能性を示しており、会話エージェントの新しい標準を設定します。

要約(オリジナル)

Large Language Models (LLMs) with API-calling capabilities enabled building effective Language Agents (LA), while also revolutionizing the conventional task-oriented dialogue (TOD) paradigm. However, current approaches face a critical dilemma: TOD systems are often trained on a limited set of target APIs, requiring new data to maintain their quality when interfacing with new services, while LAs are not trained to maintain user intent over multi-turn conversations. Because both robust multi-turn management and advanced function calling are crucial for effective conversational agents, we evaluate these skills on three popular benchmarks: MultiWOZ 2.4 (TOD), BFCL V3 (LA), and API-Bank (LA), and our analyses reveal that specialized approaches excel in one domain but underperform in the other. To bridge this chasm, we introduce CoALM (Conversational Agentic Language Model), a unified approach that integrates both conversational and agentic capabilities. We created CoALM-IT, a carefully constructed multi-task dataset that interleave multi-turn ReAct reasoning with complex API usage. Using CoALM-IT, we train three models CoALM 8B, CoALM 70B, and CoALM 405B, which outperform top domain-specific models, including GPT-4o, across all three benchmarks. This demonstrates the feasibility of a single model approach for both TOD and LA, setting a new standard for conversational agents.

arxiv情報

著者 Emre Can Acikgoz,Jeremiah Greer,Akul Datta,Ze Yang,William Zeng,Oussama Elachqar,Emmanouil Koukoumidis,Dilek Hakkani-Tür,Gokhan Tur
発行日 2025-02-19 04:28:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | Can a Single Model Master Both Multi-turn Conversations and Tool Use? CoALM: A Unified Conversational Agentic Language Model はコメントを受け付けていません

STAR: Scale-wise Text-conditioned AutoRegressive image generation

要約

スケールごとの自動回帰パラダイムを使用するテキストから画像モデルであるStarを紹介します。
最大256 $ \ Times $ 256の画像のクラス条件付き合成に制約されているVARとは異なり、スターは、3つの重要なデザインで1024 $ \ Times $ 1024までのテキスト駆動型の画像生成を有効にします。
まず、事前に訓練されたテキストエンコーダーを導入して、テキストの制約のために表現を抽出および採用し、詳細と一般化を強化します。
第二に、異なるスケールにわたって固有の構造相関を考えると、2Dロータリー位置エンコード(ロープ)を活用して正規化されたバージョンに調整し、トークンマップ全体の相対位置の一貫した解釈を確保し、トレーニングプロセスを安定させます。
第三に、単一のスケール内のすべてのトークンを同時にサンプリングすると、特に高解像度の世代では、構造的不安定性につながる可能性があることがわかります。
これに対処するために、因果関係をサンプリングプロセスに組み込んだ新しい安定したサンプリング方法を提案し、豊富な詳細と安定した構造の両方を確保します。
以前の拡散モデルや自動回帰モデルと比較して、星は忠実度、テキストイメージの一貫性、美的品質の既存のベンチマークを上回り、A100で1024 $ \ Times $ 1024画像でわずか2.21秒を必要とします。
これは、高品質の画像合成における自己回帰方法の可能性を強調し、テキストから画像の生成のための新しい方向を提供します。

要約(オリジナル)

We introduce STAR, a text-to-image model that employs a scale-wise auto-regressive paradigm. Unlike VAR, which is constrained to class-conditioned synthesis for images up to 256$\times$256, STAR enables text-driven image generation up to 1024$\times$1024 through three key designs. First, we introduce a pre-trained text encoder to extract and adopt representations for textual constraints, enhancing details and generalizability. Second, given the inherent structural correlation across different scales, we leverage 2D Rotary Positional Encoding (RoPE) and tweak it into a normalized version, ensuring consistent interpretation of relative positions across token maps and stabilizing the training process. Third, we observe that simultaneously sampling all tokens within a single scale can disrupt inter-token relationships, leading to structural instability, particularly in high-resolution generation. To address this, we propose a novel stable sampling method that incorporates causal relationships into the sampling process, ensuring both rich details and stable structures. Compared to previous diffusion models and auto-regressive models, STAR surpasses existing benchmarks in fidelity, text-image consistency, and aesthetic quality, requiring just 2.21s for 1024$\times$1024 images on A100. This highlights the potential of auto-regressive methods in high-quality image synthesis, offering new directions for the text-to-image generation.

arxiv情報

著者 Xiaoxiao Ma,Mohan Zhou,Tao Liang,Yalong Bai,Tiejun Zhao,Biye Li,Huaian Chen,Yi Jin
発行日 2025-02-19 06:00:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | STAR: Scale-wise Text-conditioned AutoRegressive image generation はコメントを受け付けていません