ImageFolder: Autoregressive Image Generation with Folded Tokens

要約

画像トークナイザーは、モデリング用の潜在表現を構築するため、拡散モデル (DM) や自己回帰 (AR) モデルなどの視覚生成モデルにとって重要です。
トークンの長さを増やすことは、画像再構成の品質を向上させる一般的なアプローチです。
ただし、トークン長が長いトークナイザーでは、生成品質が向上するという保証はありません。
トークンの長さに関して、再構築と生成の品質の間にはトレードオフが存在します。
このペーパーでは、画像の再構成と生成の両方に対するトークンの長さの影響を調査し、トレードオフに対する柔軟な解決策を提供します。
私たちは、生成効率と品質の両方を向上させるために自己回帰モデリング中に折りたたむことができる空間的に位置合わせされた画像トークンを提供するセマンティック トークナイザーである ImageFolder を提案します。
トークンの長さを増やさずに代表機能を強化するために、デュアルブランチ積量子化を利用して画像のさまざまなコンテキストをキャプチャします。
具体的には、セマンティック正則化が 1 つのブランチに導入されてセマンティック情報の圧縮が促進され、別のブランチは残りのピクセル レベルの詳細を取得するように設計されています。
広範な実験により、ImageFolder トークナイザーによる優れた画像生成品質と短いトークン長が実証されました。

要約(オリジナル)

Image tokenizers are crucial for visual generative models, e.g., diffusion models (DMs) and autoregressive (AR) models, as they construct the latent representation for modeling. Increasing token length is a common approach to improve the image reconstruction quality. However, tokenizers with longer token lengths are not guaranteed to achieve better generation quality. There exists a trade-off between reconstruction and generation quality regarding token length. In this paper, we investigate the impact of token length on both image reconstruction and generation and provide a flexible solution to the tradeoff. We propose ImageFolder, a semantic tokenizer that provides spatially aligned image tokens that can be folded during autoregressive modeling to improve both generation efficiency and quality. To enhance the representative capability without increasing token length, we leverage dual-branch product quantization to capture different contexts of images. Specifically, semantic regularization is introduced in one branch to encourage compacted semantic information while another branch is designed to capture the remaining pixel-level details. Extensive experiments demonstrate the superior quality of image generation and shorter token length with ImageFolder tokenizer.

arxiv情報

著者 Xiang Li,Kai Qiu,Hao Chen,Jason Kuen,Jiuxiang Gu,Bhiksha Raj,Zhe Lin
発行日 2024-10-15 17:07:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | ImageFolder: Autoregressive Image Generation with Folded Tokens はコメントを受け付けていません

OKAMI: Teaching Humanoid Robots Manipulation Skills through Single Video Imitation

要約

私たちは、単一のビデオデモンストレーションを模倣して人型ロボットの操作スキルを教える問題を研究します。
単一のRGB-Dビデオから操作計画を生成し、実行ポリシーを導出する手法OKAMIを紹介します。
私たちのアプローチの中心となるのは、オブジェクト認識リターゲティングです。これにより、ヒューマノイド ロボットは、展開中にさまざまなオブジェクトの位置に合わせて調整しながら、RGB-D ビデオ内の人間の動きを模倣することができます。
OKAMI は、オープンワールドのビジョン モデルを使用して、タスクに関連するオブジェクトを特定し、体の動きと手のポーズを個別に再ターゲットします。
私たちの実験では、OKAMI がさまざまな視覚的および空間的条件にわたって強力な一般化を達成し、観察によるオープンワールドの模倣に関する最先端のベースラインを上回るパフォーマンスを示していることが示されています。
さらに、OKAMI のロールアウト軌跡は閉ループ視覚運動ポリシーのトレーニングに活用されており、労働集約的な遠隔操作を必要とせずに平均 79.2% の成功率を達成します。
その他のビデオは、当社の Web サイト https://ut-austin-rpl.github.io/OKAMI/ でご覧いただけます。

要約(オリジナル)

We study the problem of teaching humanoid robots manipulation skills by imitating from single video demonstrations. We introduce OKAMI, a method that generates a manipulation plan from a single RGB-D video and derives a policy for execution. At the heart of our approach is object-aware retargeting, which enables the humanoid robot to mimic the human motions in an RGB-D video while adjusting to different object locations during deployment. OKAMI uses open-world vision models to identify task-relevant objects and retarget the body motions and hand poses separately. Our experiments show that OKAMI achieves strong generalizations across varying visual and spatial conditions, outperforming the state-of-the-art baseline on open-world imitation from observation. Furthermore, OKAMI rollout trajectories are leveraged to train closed-loop visuomotor policies, which achieve an average success rate of 79.2% without the need for labor-intensive teleoperation. More videos can be found on our website https://ut-austin-rpl.github.io/OKAMI/.

arxiv情報

著者 Jinhan Li,Yifeng Zhu,Yuqi Xie,Zhenyu Jiang,Mingyo Seo,Georgios Pavlakos,Yuke Zhu
発行日 2024-10-15 17:17:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG, cs.RO | OKAMI: Teaching Humanoid Robots Manipulation Skills through Single Video Imitation はコメントを受け付けていません

Efficient Diffusion Models: A Comprehensive Survey from Principles to Practices

要約

拡散モデルは、近年最も人気があり人気の生成モデルの 1 つとして、多くの研究者の関心を呼び起こし、画像合成、ビデオ生成、分子設計、3D シーンのレンダリングなどのさまざまな生成タスクにおいて着実に優れた利点を示しています。
マルチモーダル生成は、緻密な理論原理と信頼性の高いアプリケーション実践に依存しています。
普及モデルに関するこれらの最近の取り組みの目覚ましい成功は、主に進歩的な設計原則と効率的なアーキテクチャ、トレーニング、推論、展開方法論によるものです。
しかし、普及モデルの迅速な理解と適用に役立つ、これらの原則と実践を要約した包括的かつ詳細なレビューはまだありません。
この調査では、さらなる理論研究、アルゴリズムの移行、およびモデルの指針となる、アーキテクチャ設計、モデル トレーニング、高速推論、信頼性の高い展開における深遠な原則と効率的な実践に主に焦点を当てた、これらの既存の取り組みに対する新しい効率指向の視点を提供します。
読みやすい方法で新しいシナリオに応用できます。
\url{https://github.com/ponyzym/Efficient-DMs-Survey}

要約(オリジナル)

As one of the most popular and sought-after generative models in the recent years, diffusion models have sparked the interests of many researchers and steadily shown excellent advantage in various generative tasks such as image synthesis, video generation, molecule design, 3D scene rendering and multimodal generation, relying on their dense theoretical principles and reliable application practices. The remarkable success of these recent efforts on diffusion models comes largely from progressive design principles and efficient architecture, training, inference, and deployment methodologies. However, there has not been a comprehensive and in-depth review to summarize these principles and practices to help the rapid understanding and application of diffusion models. In this survey, we provide a new efficiency-oriented perspective on these existing efforts, which mainly focuses on the profound principles and efficient practices in architecture designs, model training, fast inference and reliable deployment, to guide further theoretical research, algorithm migration and model application for new scenarios in a reader-friendly way. \url{https://github.com/ponyzym/Efficient-DMs-Survey}

arxiv情報

著者 Zhiyuan Ma,Yuzhu Zhang,Guoli Jia,Liangliang Zhao,Yichao Ma,Mingjie Ma,Gaofeng Liu,Kaiyan Zhang,Jianjun Li,Bowen Zhou
発行日 2024-10-15 17:19:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, I.4.9 | Efficient Diffusion Models: A Comprehensive Survey from Principles to Practices はコメントを受け付けていません

Active Label Refinement for Robust Training of Imbalanced Medical Image Classification Tasks in the Presence of High Label Noise

要約

教師あり深層学習ベースの医用画像分類の堅牢性は、ラベル ノイズによって大幅に損なわれます。
ノイズの多いラベルが存在する場合の分類パフォーマンスを向上させるためにいくつかの方法が提案されていますが、それらはいくつかの課題に直面しています。1) クラスの不均衡なデータセットとの闘い。これにより、少数クラスがノイズの多いサンプルとして頻繁に見落とされます。
2) ノイズの多いラベルを積極的にクリーニングするための専門家を組み込むことなく、ノイズの多いデータセットを使用してパフォーマンスを最大化することに重点を置いています。
これらの課題を軽減するために、ノイズのあるラベルによる学習 (LNL) とアクティブ ラーニングを組み合わせた 2 段階のアプローチを提案します。
このアプローチは、ノイズの多いラベルが存在する場合の医用画像分類の堅牢性を向上させるだけでなく、限られたアノテーション予算の下で、重要で間違ったラベルを再ラベルすることにより、データセットの品質を反復的に向上させます。
さらに、LNL フェーズで新しい勾配分散アプローチを導入します。これは、過小評価されたサンプルもサンプリングすることで、損失ベースのサンプル選択を補完します。
2 つの不均衡なノイズの多い医療分類データセットを使用して、少数クラスのクリーンなサンプルを大部分がノイズの多いサンプルとして誤認しないことにより、クラスの不均衡を処理する点で、私たちが提案する手法が以前の手法よりも優れていることを示します。

要約(オリジナル)

The robustness of supervised deep learning-based medical image classification is significantly undermined by label noise. Although several methods have been proposed to enhance classification performance in the presence of noisy labels, they face some challenges: 1) a struggle with class-imbalanced datasets, leading to the frequent overlooking of minority classes as noisy samples; 2) a singular focus on maximizing performance using noisy datasets, without incorporating experts-in-the-loop for actively cleaning the noisy labels. To mitigate these challenges, we propose a two-phase approach that combines Learning with Noisy Labels (LNL) and active learning. This approach not only improves the robustness of medical image classification in the presence of noisy labels, but also iteratively improves the quality of the dataset by relabeling the important incorrect labels, under a limited annotation budget. Furthermore, we introduce a novel Variance of Gradients approach in LNL phase, which complements the loss-based sample selection by also sampling under-represented samples. Using two imbalanced noisy medical classification datasets, we demonstrate that that our proposed technique is superior to its predecessors at handling class imbalance by not misidentifying clean samples from minority classes as mostly noisy samples.

arxiv情報

著者 Bidur Khanal,Tianhong Dai,Binod Bhattarai,Cristian Linte
発行日 2024-10-15 17:22:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG | Active Label Refinement for Robust Training of Imbalanced Medical Image Classification Tasks in the Presence of High Label Noise はコメントを受け付けていません

VIA: Unified Spatiotemporal Video Adaptation Framework for Global and Local Video Editing

要約

ビデオ編集は、エンターテインメントや教育からプロフェッショナルなコミュニケーションに至るまで、デジタル メディアの基礎です。
しかし、以前の方法では、グローバルとローカルの両方のコンテキストを包括的に理解する必要性が見落とされることが多く、特に長いビデオの場合、時空間次元で不正確で一貫性のない編集が行われてしまいます。
このペーパーでは、グローバルおよびローカルのビデオ編集のための統合時空間ビデオ アダプテーション フレームワークである VIA を紹介し、1 分間のビデオを一貫して編集する限界を押し広げます。
まず、個々のフレーム内のローカルな一貫性を確保するために、潜在的な編集方向とテキスト命令の間の一貫性を向上させるために事前トレーニングされた画像編集モデルを適応させるテスト時の編集適応を設計し、正確なローカル制御のためにマスクされた潜在変数を適応させます。
さらに、ビデオシーケンス全体にわたるグローバルな一貫性を維持するために、キーフレーム内の一貫した注意変数を再帰的に収集し、それらをシーケンス全体に戦略的に適用して編集効果を実現する時空間適応を導入します。
広範な実験により、ベースライン手法と比較して、VIA アプローチはソースビデオにより忠実であり、時空間コンテキストにおいてより一貫性があり、ローカル制御においてより正確な編集が生成されることが実証されています。
さらに重要なのは、VIA が一貫した長時間ビデオ編集を数分で実現できることを示し、長いビデオ シーケンスにわたる高度なビデオ編集タスクの可能性を解き放ちます。

要約(オリジナル)

Video editing is a cornerstone of digital media, from entertainment and education to professional communication. However, previous methods often overlook the necessity of comprehensively understanding both global and local contexts, leading to inaccurate and inconsistent edits in the spatiotemporal dimension, especially for long videos. In this paper, we introduce VIA, a unified spatiotemporal Video Adaptation framework for global and local video editing, pushing the limits of consistently editing minute-long videos. First, to ensure local consistency within individual frames, we designed test-time editing adaptation to adapt a pre-trained image editing model for improving consistency between potential editing directions and the text instruction, and adapt masked latent variables for precise local control. Furthermore, to maintain global consistency over the video sequence, we introduce spatiotemporal adaptation that recursively gather consistent attention variables in key frames and strategically applies them across the whole sequence to realize the editing effects. Extensive experiments demonstrate that, compared to baseline methods, our VIA approach produces edits that are more faithful to the source videos, more coherent in the spatiotemporal context, and more precise in local control. More importantly, we show that VIA can achieve consistent long video editing in minutes, unlocking the potential for advanced video editing tasks over long video sequences.

arxiv情報

著者 Jing Gu,Yuwei Fang,Ivan Skorokhodov,Peter Wonka,Xinya Du,Sergey Tulyakov,Xin Eric Wang
発行日 2024-10-15 17:31:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.MM | VIA: Unified Spatiotemporal Video Adaptation Framework for Global and Local Video Editing はコメントを受け付けていません

Advancements in Road Lane Mapping: Comparative Fine-Tuning Analysis of Deep Learning-based Semantic Segmentation Methods Using Aerial Imagery

要約

この研究は、航空画像から得られる道路車線情報に焦点を当て、自動運転車 (AV) 用の高解像度 (HD) マップのニーズに取り組んでいます。
地球観測データは地図作成に貴重なリソースを提供しますが、リモート センシングでは道路車線抽出に特化したモデルがまだ開発されていません。
この研究では、高精細リモートセンシング画像から道路車線標示を抽出するための 12 の基本的な深層学習ベースのセマンティック セグメンテーション モデルの広範な比較を実行し、部分的にラベル付けされたデータセットを使用した転移学習下でのパフォーマンスを評価します。
これらのモデルは、部分的にラベル付けされた Waterloo Urban Scene データセットで微調整され、SkyScapes データセットで事前トレーニングされ、部分的にラベル付けされた実際のモデル展開の想定されるシナリオをシミュレートしました。
微調整パフォーマンスと全体的なパフォーマンスを観察し、評価しました。
モデルは微調整後に大幅なパフォーマンスの向上を示し、平均 IoU スコアは 33.56% ~ 76.11% の範囲、再現率は 66.0% ~ 98.96% の範囲でした。
トランスフォーマーベースのモデルは畳み込みニューラル ネットワークを上回り、AV ナビゲーション用の HD マップ開発を強化する際のモデルの事前トレーニングと微調整の重要性が強調されました。

要約(オリジナル)

This research addresses the need for high-definition (HD) maps for autonomous vehicles (AVs), focusing on road lane information derived from aerial imagery. While Earth observation data offers valuable resources for map creation, specialized models for road lane extraction are still underdeveloped in remote sensing. In this study, we perform an extensive comparison of twelve foundational deep learning-based semantic segmentation models for road lane marking extraction from high-definition remote sensing images, assessing their performance under transfer learning with partially labeled datasets. These models were fine-tuned on the partially labeled Waterloo Urban Scene dataset, and pre-trained on the SkyScapes dataset, simulating a likely scenario of real-life model deployment under partial labeling. We observed and assessed the fine-tuning performance and overall performance. Models showed significant performance improvements after fine-tuning, with mean IoU scores ranging from 33.56% to 76.11%, and recall ranging from 66.0% to 98.96%. Transformer-based models outperformed convolutional neural networks, emphasizing the importance of model pre-training and fine-tuning in enhancing HD map development for AV navigation.

arxiv情報

著者 Willow Liu,Shuxin Qiao,Kyle Gao,Hongjie He,Michael A. Chapman,Linlin Xu,Jonathan Li
発行日 2024-10-15 17:37:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Advancements in Road Lane Mapping: Comparative Fine-Tuning Analysis of Deep Learning-based Semantic Segmentation Methods Using Aerial Imagery はコメントを受け付けていません

SGEdit: Bridging LLM with Text2Image Generative Model for Scene Graph-based Image Editing

要約

シーン グラフは、オブジェクトとそれらの間の関係を象徴するノードとエッジを使用して、イメージの構造化された階層表現を提供します。
画像編集の自然なインターフェイスとして機能し、精度と柔軟性が大幅に向上します。
この利点を活用して、シーン グラフ ベースの画像編集のための大規模言語モデル (LLM) と Text2Image 生成モデルを統合する新しいフレームワークを導入します。
この統合により、全体的な画像の完全性を損なうことなく、オブジェクト レベルでの正確な変更と、シーンの創造的な再構成が可能になります。
私たちのアプローチには 2 つの主要な段階が含まれます。 1) LLM 駆動のシーン パーサーを利用して、画像のシーン グラフを構築し、主要なオブジェクトとその相互関係をキャプチャし、オブジェクト マスクや説明などのきめ細かい属性を解析します。
これらのアノテーションは、最適化されたトークンと詳細な説明プロンプトで各オブジェクトを表す、微調整された拡散モデルによる概念の学習を促進します。
2) 画像編集段階では、LLM 編集コントローラが特定の領域に向けて編集をガイドします。
これらの編集は、微調整されたモデルを利用してオブジェクトの追加、削除、置換、調整を実行するアテンション変調拡散エディタによって実装されます。
広範な実験を通じて、私たちのフレームワークが編集精度とシーンの美しさの点で既存の画像編集方法を大幅に上回ることを実証しました。

要約(オリジナル)

Scene graphs offer a structured, hierarchical representation of images, with nodes and edges symbolizing objects and the relationships among them. It can serve as a natural interface for image editing, dramatically improving precision and flexibility. Leveraging this benefit, we introduce a new framework that integrates large language model (LLM) with Text2Image generative model for scene graph-based image editing. This integration enables precise modifications at the object level and creative recomposition of scenes without compromising overall image integrity. Our approach involves two primary stages: 1) Utilizing a LLM-driven scene parser, we construct an image’s scene graph, capturing key objects and their interrelationships, as well as parsing fine-grained attributes such as object masks and descriptions. These annotations facilitate concept learning with a fine-tuned diffusion model, representing each object with an optimized token and detailed description prompt. 2) During the image editing phase, a LLM editing controller guides the edits towards specific areas. These edits are then implemented by an attention-modulated diffusion editor, utilizing the fine-tuned model to perform object additions, deletions, replacements, and adjustments. Through extensive experiments, we demonstrate that our framework significantly outperforms existing image editing methods in terms of editing precision and scene aesthetics.

arxiv情報

著者 Zhiyuan Zhang,DongDong Chen,Jing Liao
発行日 2024-10-15 17:40:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | SGEdit: Bridging LLM with Text2Image Generative Model for Scene Graph-based Image Editing はコメントを受け付けていません

Jigsaw++: Imagining Complete Shape Priors for Object Reassembly

要約

自動アセンブリの問題は、3D 表現を伴う複雑な課題のため、ますます関心を集めています。
この論文では、再構成問題の再構成という多面的な課題に取り組むために設計された新しい生成手法である Jigsaw++ を紹介します。
既存のアプローチは、主に部品と破断アセンブリの両方の区分情報に焦点を当てており、事前に完全なオブジェクトを統合することが見落とされていることがよくあります。
Jigsaw++ は、完全なオブジェクトに先立ってカテゴリに依存しない形状を学習することによって特徴付けられます。
これは、既存のアセンブリ方法の出力を効果的に活用して完全な形状の再構築を生成する、提案された「リターゲティング」戦略を採用しています。
この機能により、現在のメソッドと直交して機能することができます。
Breaking Bad データセットと PartNet の広範な評価を通じて、Jigsaw++ はその有効性を実証し、再構成エラーを削減し、形状再構成の精度を向上させ、将来の再構成モデ​​ル開発に新たな方向性をもたらしました。

要約(オリジナル)

The automatic assembly problem has attracted increasing interest due to its complex challenges that involve 3D representation. This paper introduces Jigsaw++, a novel generative method designed to tackle the multifaceted challenges of reconstruction for the reassembly problem. Existing approach focusing primarily on piecewise information for both part and fracture assembly, often overlooking the integration of complete object prior. Jigsaw++ distinguishes itself by learning a category-agnostic shape prior of complete objects. It employs the proposed ‘retargeting’ strategy that effectively leverages the output of any existing assembly method to generate complete shape reconstructions. This capability allows it to function orthogonally to the current methods. Through extensive evaluations on Breaking Bad dataset and PartNet, Jigsaw++ has demonstrated its effectiveness, reducing reconstruction errors and enhancing the precision of shape reconstruction, which sets a new direction for future reassembly model developments.

arxiv情報

著者 Jiaxin Lu,Gang Hua,Qixing Huang
発行日 2024-10-15 17:45:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Jigsaw++: Imagining Complete Shape Priors for Object Reassembly はコメントを受け付けていません

Improving Long-Text Alignment for Text-to-Image Diffusion Models

要約

テキストから画像への (T2I) 拡散モデルの急速な進歩により、与えられたテキストから前例のない結果を生成できるようになりました。
ただし、テキスト入力が長くなるにつれて、CLIP などの既存のエンコード方法では制限に直面し、生成された画像を長いテキストに合わせて配置することが困難になります。
これらの問題に取り組むために、我々は LongAlign を提案します。これには、長いテキストを処理するためのセグメントレベルのエンコード方法と、効果的な位置合わせトレーニングのための分解された優先順位の最適化方法が含まれています。
セグメントレベルのエンコードでは、長いテキストが複数のセグメントに分割され、個別に処理されます。
この方法は、事前トレーニングされたエンコード モデルの最大入力長制限を克服します。
嗜好の最適化のために、拡散モデルを微調整するために、分解された CLIP ベースの嗜好モデルを提供します。
具体的には、T2I アライメントに CLIP ベースのプリファレンス モデルを利用するために、そのスコアリング メカニズムを詳しく調べ、プリファレンス スコアが 2 つのコンポーネントに分解できることを発見しました。1 つは T2I アライメントを測定するテキスト関連部分、もう 1 つはその他のテキスト関連部分です。
人間の好みの視覚的な側面。
さらに、テキストに関係のない部分が、微調整中の一般的な過学習問題の原因となっていることがわかりました。
これに対処するために、これら 2 つのコンポーネントに異なる重みを割り当てる再重み付け戦略を提案します。これにより、過剰適合が軽減され、整合が強化されます。
私たちの方法を使用して $512 \times 512$ 安定拡散 (SD) v1.5 を約 20 時間微調整した後、微調整された SD は、PixArt-$\alpha$ や Kandinsky v2 などの T2I アライメントにおける強力な基礎モデルよりも優れたパフォーマンスを示しました。
2.
コードは https://github.com/luping-liu/LongAlign で入手できます。

要約(オリジナル)

The rapid advancement of text-to-image (T2I) diffusion models has enabled them to generate unprecedented results from given texts. However, as text inputs become longer, existing encoding methods like CLIP face limitations, and aligning the generated images with long texts becomes challenging. To tackle these issues, we propose LongAlign, which includes a segment-level encoding method for processing long texts and a decomposed preference optimization method for effective alignment training. For segment-level encoding, long texts are divided into multiple segments and processed separately. This method overcomes the maximum input length limits of pretrained encoding models. For preference optimization, we provide decomposed CLIP-based preference models to fine-tune diffusion models. Specifically, to utilize CLIP-based preference models for T2I alignment, we delve into their scoring mechanisms and find that the preference scores can be decomposed into two components: a text-relevant part that measures T2I alignment and a text-irrelevant part that assesses other visual aspects of human preference. Additionally, we find that the text-irrelevant part contributes to a common overfitting problem during fine-tuning. To address this, we propose a reweighting strategy that assigns different weights to these two components, thereby reducing overfitting and enhancing alignment. After fine-tuning $512 \times 512$ Stable Diffusion (SD) v1.5 for about 20 hours using our method, the fine-tuned SD outperforms stronger foundation models in T2I alignment, such as PixArt-$\alpha$ and Kandinsky v2.2. The code is available at https://github.com/luping-liu/LongAlign.

arxiv情報

著者 Luping Liu,Chao Du,Tianyu Pang,Zehan Wang,Chongxuan Li,Dong Xu
発行日 2024-10-15 17:46:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, cs.MM | Improving Long-Text Alignment for Text-to-Image Diffusion Models はコメントを受け付けていません

KITTEN: A Knowledge-Intensive Evaluation of Image Generation on Visual Entities

要約

テキストから画像への生成における最近の進歩により、合成画像の品質が大幅に向上しました。
このような進歩にもかかわらず、評価は主に美的魅力やテキスト プロンプトとの整合性に焦点が当てられています。
したがって、これらのモデルがさまざまな現実的な視覚エンティティを正確に表現できるかどうかについての理解は限られており、これには現実世界の知識が必要です。
このギャップに対処するために、実世界のエンティティ (つまり、KITTEN) での知識集中型の画像生成の評価に焦点を当てたベンチマークを提案します。
KITTEN を使用して、ランドマークの建物、航空機、植物、動物など、現実世界のさまざまな視覚的エンティティを生成する能力に焦点を当て、テキストから画像への生成モデルにおけるエンティティの忠実性に関する体系的な研究を実施します。
私たちは、生成された画像内のエンティティの忠実性に重点を置き、自動メトリクスと慎重に設計された人間による評価の両方を使用して、最新のテキストから画像へのモデルと検索拡張カスタマイズ モデルを評価します。
私たちの調査結果では、最も高度なテキストから画像へのモデルであっても、正確な視覚的詳細を備えたエンティティを生成できないことが多いことが明らかになりました。
検索拡張モデルは、テスト中に参照画像を組み込むことでエンティティの忠実度を高めることができますが、多くの場合、これらの参照に過度に依存し、クリエイティブ テキスト プロンプトで要求されるエンティティの新しい構成を生成するのに苦労します。

要約(オリジナル)

Recent advancements in text-to-image generation have significantly enhanced the quality of synthesized images. Despite this progress, evaluations predominantly focus on aesthetic appeal or alignment with text prompts. Consequently, there is limited understanding of whether these models can accurately represent a wide variety of realistic visual entities – a task requiring real-world knowledge. To address this gap, we propose a benchmark focused on evaluating Knowledge-InTensive image generaTion on real-world ENtities (i.e., KITTEN). Using KITTEN, we conduct a systematic study on the fidelity of entities in text-to-image generation models, focusing on their ability to generate a wide range of real-world visual entities, such as landmark buildings, aircraft, plants, and animals. We evaluate the latest text-to-image models and retrieval-augmented customization models using both automatic metrics and carefully-designed human evaluations, with an emphasis on the fidelity of entities in the generated images. Our findings reveal that even the most advanced text-to-image models often fail to generate entities with accurate visual details. Although retrieval-augmented models can enhance the fidelity of entity by incorporating reference images during testing, they often over-rely on these references and struggle to produce novel configurations of the entity as requested in creative text prompts.

arxiv情報

著者 Hsin-Ping Huang,Xinyi Wang,Yonatan Bitton,Hagai Taitelbaum,Gaurav Singh Tomar,Ming-Wei Chang,Xuhui Jia,Kelvin C. K. Chan,Hexiang Hu,Yu-Chuan Su,Ming-Hsuan Yang
発行日 2024-10-15 17:50:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | KITTEN: A Knowledge-Intensive Evaluation of Image Generation on Visual Entities はコメントを受け付けていません