Thing2Reality: Transforming 2D Content into Conditioned Multiviews and 3D Gaussian Objects for XR Communication

要約

リモートコミュニケーション中、参加者は相互理解を高めるために、製品デザイン、デジタル資産、環境などのデジタルコンテンツと物理コンテンツの両方を共有することがよくあります。
最近の拡張通信の進歩により、ユーザーはビデオ フィードから物理オブジェクトのデジタル 2D コピーを迅速に作成し、共有スペースに共有できるようになりました。
しかし、デジタル オブジェクトの従来の 2D 表現では、共有没入型環境でユーザーがアイテムを空間的に参照する能力が制限されます。
これに対処するために、リモート セッション中にデジタルと物理的なアイテムの両方についての自発的なディスカッションを強化する拡張現実 (XR) コミュニケーション プラットフォームである Thing2Reality を提案します。
Thing2Reality を使用すると、ユーザーは没入型環境でアイデアや物理オブジェクトをすばやく実現し、それらを条件付きマルチビュー レンダリングまたは 3D ガウスとして共有できます。
Thing2Reality を使用すると、ユーザーはリモート オブジェクトと対話したり、協力して概念について話し合ったりできます。
私たちのユーザー調査により、オブジェクトの 3D 表現を操作して対話する機能により、ディスカッションの効率が大幅に向上し、2D アーティファクトのディスカッションが強化される可能性があることが明らかになりました。

要約(オリジナル)

During remote communication, participants often share both digital and physical content, such as product designs, digital assets, and environments, to enhance mutual understanding. Recent advances in augmented communication have facilitated users to swiftly create and share digital 2D copies of physical objects from video feeds into a shared space. However, conventional 2D representations of digital objects restricts users’ ability to spatially reference items in a shared immersive environment. To address this, we propose Thing2Reality, an Extended Reality (XR) communication platform that enhances spontaneous discussions of both digital and physical items during remote sessions. With Thing2Reality, users can quickly materialize ideas or physical objects in immersive environments and share them as conditioned multiview renderings or 3D Gaussians. Thing2Reality enables users to interact with remote objects or discuss concepts in a collaborative manner. Our user study revealed that the ability to interact with and manipulate 3D representations of objects significantly enhances the efficiency of discussions, with the potential to augment discussion of 2D artifacts.

arxiv情報

著者 Erzhen Hu,Mingyi Li,Jungtaek Hong,Xun Qian,Alex Olwal,David Kim,Seongkook Heo,Ruofei Du
発行日 2024-10-09 17:49:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.HC | コメントする

EvolveDirector: Approaching Advanced Text-to-Image Generation with Large Vision-Language Models

要約

生成モデルの最近の進歩により、素晴らしいコンテンツを生成する際の顕著な機能が実証されました。
ただし、そのほとんどは独自の高品質データでトレーニングされており、一部のモデルはパラメーターを差し控え、アクセス可能なアプリケーション プログラミング インターフェイス (API) のみを提供するため、下流タスクでの利点が制限されます。
公開されているリソースを使用して、高度なモデルに匹敵するテキストから画像への生成モデルをトレーニングする実現可能性を検討するために、EvolveDirector を紹介します。
このフレームワークは、パブリック API を通じて高度なモデルと対話し、基本モデルをトレーニングするためのテキストと画像のデータのペアを取得します。
広範なデータを用いた実験により、高度なモデルの生成データでトレーニングされたモデルがその生成能力を近似できることが示されました。
ただし、1,000万以上の大規模サンプルが必要です。
これにより、時間、計算リソース、特に有料 API の呼び出しに関連するコストが大幅に増加します。
この問題に対処するために、事前トレーニングされた大規模ビジョン言語モデル (VLM) を活用して、基本モデルの進化をガイドします。
VLM はトレーニング中にベース モデルを継続的に評価し、識別、拡張、削除、突然変異の操作によってトレーニング データセットを動的に更新および改良します。
実験結果は、このパラダイムにより必要なデータ量が大幅に削減されることを示しています。
さらに、複数の高度なモデルに近づくと、EvolveDirector はそれらのモデルによって生成された最良のサンプルを選択して、強力でバランスのとれた能力を学習できます。
最終的にトレーニングされたモデル Edgen は、これらの高度なモデルよりも優れたパフォーマンスを発揮することが実証されています。
コードとモデルの重みは https://github.com/showlab/EvolveDirector で入手できます。

要約(オリジナル)

Recent advancements in generation models have showcased remarkable capabilities in generating fantastic content. However, most of them are trained on proprietary high-quality data, and some models withhold their parameters and only provide accessible application programming interfaces (APIs), limiting their benefits for downstream tasks. To explore the feasibility of training a text-to-image generation model comparable to advanced models using publicly available resources, we introduce EvolveDirector. This framework interacts with advanced models through their public APIs to obtain text-image data pairs to train a base model. Our experiments with extensive data indicate that the model trained on generated data of the advanced model can approximate its generation capability. However, it requires large-scale samples of 10 million or more. This incurs significant expenses in time, computational resources, and especially the costs associated with calling fee-based APIs. To address this problem, we leverage pre-trained large vision-language models (VLMs) to guide the evolution of the base model. VLM continuously evaluates the base model during training and dynamically updates and refines the training dataset by the discrimination, expansion, deletion, and mutation operations. Experimental results show that this paradigm significantly reduces the required data volume. Furthermore, when approaching multiple advanced models, EvolveDirector can select the best samples generated by them to learn powerful and balanced abilities. The final trained model Edgen is demonstrated to outperform these advanced models. The code and model weights are available at https://github.com/showlab/EvolveDirector.

arxiv情報

著者 Rui Zhao,Hangjie Yuan,Yujie Wei,Shiwei Zhang,Yuchao Gu,Lingmin Ran,Xiang Wang,Zhangjie Wu,Junhao Zhang,Yingya Zhang,Mike Zheng Shou
発行日 2024-10-09 17:52:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | コメントする

Towards Interpreting Visual Information Processing in Vision-Language Models

要約

視覚言語モデル (VLM) は、テキストと画像を処理および理解するための強力なツールです。
私たちは、著名な VLM である LLaVA の言語モデル コンポーネントにおけるビジュアル トークンの処理を研究します。
私たちのアプローチは、オブジェクト情報の位置特定、レイヤー全体にわたる視覚的なトークン表現の進化、予測のために視覚情報を統合するメカニズムの分析に焦点を当てています。
アブレーション研究を通じて、オブジェクト固有のトークンが削除されるとオブジェクト識別精度が 70% 以上低下することが実証されました。
私たちは、視覚的なトークン表現がレイヤー全体の語彙空間でますます解釈可能になっていることを観察し、画像コンテンツに対応するテキストトークンとの整合性を示唆しています。
最後に、このモデルは、予測のために最後のトークン位置でこれらの洗練された表現からオブジェクト情報を抽出し、事実関連タスクのテキストのみの言語モデルのプロセスを反映していることがわかりました。
これらの発見は、VLM がどのように視覚情報を処理および統合するかについて重要な洞察を提供し、言語モデルと視覚モデルの理解の間のギャップを埋め、より解釈可能で制御可能なマルチモーダル システムへの道を切り開きます。

要約(オリジナル)

Vision-Language Models (VLMs) are powerful tools for processing and understanding text and images. We study the processing of visual tokens in the language model component of LLaVA, a prominent VLM. Our approach focuses on analyzing the localization of object information, the evolution of visual token representations across layers, and the mechanism of integrating visual information for predictions. Through ablation studies, we demonstrated that object identification accuracy drops by over 70\% when object-specific tokens are removed. We observed that visual token representations become increasingly interpretable in the vocabulary space across layers, suggesting an alignment with textual tokens corresponding to image content. Finally, we found that the model extracts object information from these refined representations at the last token position for prediction, mirroring the process in text-only language models for factual association tasks. These findings provide crucial insights into how VLMs process and integrate visual information, bridging the gap between our understanding of language and vision models, and paving the way for more interpretable and controllable multimodal systems.

arxiv情報

著者 Clement Neo,Luke Ong,Philip Torr,Mor Geva,David Krueger,Fazl Barez
発行日 2024-10-09 17:55:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG | コメントする

CHASE: Learning Convex Hull Adaptive Shift for Skeleton-based Multi-Entity Action Recognition

要約

スケルトンベースのマルチエンティティのアクション認識は、複数の多様なエンティティが関与するインタラクティブなアクションやグループ活動を識別することを目的とした難しいタスクです。
個人向けの既存のモデルでは、エンティティ スケルトン間の固有の分布の不一致により、このタスクでは不十分なことが多く、バックボーンの最適化が最適化されていません。
この目的を達成するために、エンティティ間の分布ギャップを緩和し、後続のバックボーンを公平化する、凸包適応シフト ベースのマルチエンティティ アクション認識方法 (CHASE) を導入します。
具体的には、CHASE は、学習可能なパラメータ化されたネットワークと補助目標で構成されます。
パラメーター化されたネットワークは、2 つの主要なコンポーネントを通じて、サンプルに適応したスケルトン シーケンスの再配置を実現します。
まず、暗黙的な凸包制約適応シフトにより、座標系の新しい原点がスケルトン凸包内にあることが保証されます。
第 2 に、係数学習ブロックは、スケルトン シーケンスから凸組み合わせの特定の係数へのマッピングの軽量パラメータ化を提供します。
さらに、不一致を最小限に抑えるためのこのネットワークの最適化を導くために、追加の目的としてミニバッチのペアごとの最大平均不一致を提案します。
CHASE は、エンティティ間の分布の不一致を軽減するサンプル適応正規化手法として動作し、それによってデータの偏りを軽減し、後続の分類器のマルチエンティティ アクション認識パフォーマンスを向上させます。
NTU Mutual 11/26、H2O、Assembly101、集団アクティビティ、バレーボールを含む 6 つのデータセットに対する広範な実験により、単一エンティティのバックボーンにシームレスに適応し、複数エンティティのシナリオでのパフォーマンスを向上させることで、私たちのアプローチが一貫して検証されています。
私たちのコードは https://github.com/Necolizer/CHASE で公開されています。

要約(オリジナル)

Skeleton-based multi-entity action recognition is a challenging task aiming to identify interactive actions or group activities involving multiple diverse entities. Existing models for individuals often fall short in this task due to the inherent distribution discrepancies among entity skeletons, leading to suboptimal backbone optimization. To this end, we introduce a Convex Hull Adaptive Shift based multi-Entity action recognition method (CHASE), which mitigates inter-entity distribution gaps and unbiases subsequent backbones. Specifically, CHASE comprises a learnable parameterized network and an auxiliary objective. The parameterized network achieves plausible, sample-adaptive repositioning of skeleton sequences through two key components. First, the Implicit Convex Hull Constrained Adaptive Shift ensures that the new origin of the coordinate system is within the skeleton convex hull. Second, the Coefficient Learning Block provides a lightweight parameterization of the mapping from skeleton sequences to their specific coefficients in convex combinations. Moreover, to guide the optimization of this network for discrepancy minimization, we propose the Mini-batch Pair-wise Maximum Mean Discrepancy as the additional objective. CHASE operates as a sample-adaptive normalization method to mitigate inter-entity distribution discrepancies, thereby reducing data bias and improving the subsequent classifier’s multi-entity action recognition performance. Extensive experiments on six datasets, including NTU Mutual 11/26, H2O, Assembly101, Collective Activity and Volleyball, consistently verify our approach by seamlessly adapting to single-entity backbones and boosting their performance in multi-entity scenarios. Our code is publicly available at https://github.com/Necolizer/CHASE .

arxiv情報

著者 Yuhang Wen,Mengyuan Liu,Songtao Wu,Beichen Ding
発行日 2024-10-09 17:55:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG | コメントする

Trans4D: Realistic Geometry-Aware Transition for Compositional Text-to-4D Synthesis

要約

拡散モデルの最近の進歩により、画像とビデオの生成において優れた機能が実証され、4D 合成の効率がさらに向上しました。
既存の 4D 生成方法は、ユーザーフレンドリーな条件に基づいて高品質の 4D オブジェクトまたはシーンを生成でき、ゲーム業界やビデオ業界に利益をもたらします。
ただし、これらの方法では、シーン内の複雑な 4D トランジションやインタラクションの大幅なオブジェクト変形を合成するのが困難です。
この課題に対処するために、リアルで複雑なシーンの遷移を可能にする新しいテキストから 4D への合成フレームワークである Trans4D を提案します。
具体的には、まずマルチモーダル大規模言語モデル (MLLM) を使用して、4D シーンの初期化と効果的な遷移タイミング計画のための物理を意識したシーン記述を生成します。
次に、表現力豊かな幾何学的オブジェクトの変形を伴う、計画に基づいた複雑なシーンレベルの 4D トランジションを実現するための、ジオメトリを意識した 4D トランジション ネットワークを提案します。
広範な実験により、Trans4D が正確かつ高品質のトランジションを備えた 4D シーンの生成において既存の最先端の方法を常に上回るパフォーマンスを示し、その有効性が検証されました。
コード: https://github.com/YangLing0818/Trans4D

要約(オリジナル)

Recent advances in diffusion models have demonstrated exceptional capabilities in image and video generation, further improving the effectiveness of 4D synthesis. Existing 4D generation methods can generate high-quality 4D objects or scenes based on user-friendly conditions, benefiting the gaming and video industries. However, these methods struggle to synthesize significant object deformation of complex 4D transitions and interactions within scenes. To address this challenge, we propose Trans4D, a novel text-to-4D synthesis framework that enables realistic complex scene transitions. Specifically, we first use multi-modal large language models (MLLMs) to produce a physic-aware scene description for 4D scene initialization and effective transition timing planning. Then we propose a geometry-aware 4D transition network to realize a complex scene-level 4D transition based on the plan, which involves expressive geometrical object deformation. Extensive experiments demonstrate that Trans4D consistently outperforms existing state-of-the-art methods in generating 4D scenes with accurate and high-quality transitions, validating its effectiveness. Code: https://github.com/YangLing0818/Trans4D

arxiv情報

著者 Bohan Zeng,Ling Yang,Siyu Li,Jiaming Liu,Zixiang Zhang,Juanxi Tian,Kaixin Zhu,Yongzhen Guo,Fu-Yun Wang,Minkai Xu,Stefano Ermon,Wentao Zhang
発行日 2024-10-09 17:56:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | コメントする

InstructG2I: Synthesizing Images from Multimodal Attributed Graphs

要約

この論文では、見落とされているが重要なタスク Graph2Image、つまりマルチモーダル属性グラフ (MMAG) から画像を生成することに取り組みます。
このタスクは、グラフ サイズの爆発的な増加、グラフ エンティティ間の依存関係、およびグラフ条件の制御性の必要性により、重大な課題を引き起こします。
これらの課題に対処するために、InstructG2I と呼ばれるグラフのコンテキスト条件付き拡散モデルを提案します。
InstructG2I はまず、グラフ構造とマルチモーダル情報を利用して、パーソナライズされたページ ランクと視覚言語機能に基づく再ランキングを組み合わせて、有益な近傍サンプリングを実行します。
次に、Graph-QFormer エンコーダは、グラフ ノードをグラフ プロンプトの補助セットに適応的にエンコードして、拡散のノイズ除去プロセスをガイドします。
最後に、グラフ分類子を使用しないガイダンスを提案します。これにより、グラフ ガイダンスの強度とノードに接続された複数のエッジを変更することで、制御可能な生成が可能になります。
異なるドメインの 3 つのデータセットに対して行われた広範な実験により、私たちのアプローチの有効性と制御可能性が実証されました。
コードは https://github.com/PeterGriffinJin/InstructG2I で入手できます。

要約(オリジナル)

In this paper, we approach an overlooked yet critical task Graph2Image: generating images from multimodal attributed graphs (MMAGs). This task poses significant challenges due to the explosion in graph size, dependencies among graph entities, and the need for controllability in graph conditions. To address these challenges, we propose a graph context-conditioned diffusion model called InstructG2I. InstructG2I first exploits the graph structure and multimodal information to conduct informative neighbor sampling by combining personalized page rank and re-ranking based on vision-language features. Then, a Graph-QFormer encoder adaptively encodes the graph nodes into an auxiliary set of graph prompts to guide the denoising process of diffusion. Finally, we propose graph classifier-free guidance, enabling controllable generation by varying the strength of graph guidance and multiple connected edges to a node. Extensive experiments conducted on three datasets from different domains demonstrate the effectiveness and controllability of our approach. The code is available at https://github.com/PeterGriffinJin/InstructG2I.

arxiv情報

著者 Bowen Jin,Ziqi Pang,Bingjun Guo,Yu-Xiong Wang,Jiaxuan You,Jiawei Han
発行日 2024-10-09 17:56:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG, cs.SI | コメントする

AvatarGO: Zero-shot 4D Human-Object Interaction Generation and Animation

要約

拡散モデルの最近の進歩により、4D 全身ヒューマン オブジェクト インタラクション (HOI) の生成とアニメーションが大幅に改善されました。
それにもかかわらず、既存の方法は主に SMPL ベースのモーション生成に焦点を当てており、現実的な大規模インタラクション データの不足によって制限されています。
この制約は、日常の HOI シーンを作成する能力に影響します。
このペーパーでは、事前トレーニングされた拡散モデルを使用したゼロショット アプローチを使用して、この課題に取り組みます。
この可能性にもかかわらず、拡散モデルには物体が「どこで」「どのように」人体と相互作用するかが理解されていないため、目標を達成することは困難です。
これらの問題に取り組むために、テキスト入力から直接アニメーション化可能な 4D HOI シーンを生成するように設計された新しいフレームワークである AvatarGO を紹介します。
具体的には、1) 「どこ」の課題に対して、LLM ガイドによる接触リターゲティングを提案します。これは、Lang-SAM を使用してテキスト プロンプトから接触体の部分を特定し、人間と物体の空間関係の正確な表現を保証します。
2) 「どのように」という課題については、SMPL-X の線形ブレンド スキニング関数を使用して、人間とオブジェクトの両方のモデルのモーション フィールドを構築する、対応を意識したモーションの最適化を導入します。
私たちのフレームワークは、一貫した構成モーションを生成するだけでなく、貫通問題の処理において優れた堅牢性も示します。
既存の手法を用いた広範な実験により、さまざまな人間とオブジェクトのペアや多様なポーズに対する AvatarGO の優れた生成およびアニメーション機能が検証されました。
オブジェクトのインタラクションを使用して 4D アバターを合成する最初の試みとして、AvatarGO が人間中心の 4D コンテンツ作成の新たな扉を開くことができることを期待しています。

要約(オリジナル)

Recent advancements in diffusion models have led to significant improvements in the generation and animation of 4D full-body human-object interactions (HOI). Nevertheless, existing methods primarily focus on SMPL-based motion generation, which is limited by the scarcity of realistic large-scale interaction data. This constraint affects their ability to create everyday HOI scenes. This paper addresses this challenge using a zero-shot approach with a pre-trained diffusion model. Despite this potential, achieving our goals is difficult due to the diffusion model’s lack of understanding of ”where” and ”how” objects interact with the human body. To tackle these issues, we introduce AvatarGO, a novel framework designed to generate animatable 4D HOI scenes directly from textual inputs. Specifically, 1) for the ”where” challenge, we propose LLM-guided contact retargeting, which employs Lang-SAM to identify the contact body part from text prompts, ensuring precise representation of human-object spatial relations. 2) For the ”how” challenge, we introduce correspondence-aware motion optimization that constructs motion fields for both human and object models using the linear blend skinning function from SMPL-X. Our framework not only generates coherent compositional motions, but also exhibits greater robustness in handling penetration issues. Extensive experiments with existing methods validate AvatarGO’s superior generation and animation capabilities on a variety of human-object pairs and diverse poses. As the first attempt to synthesize 4D avatars with object interactions, we hope AvatarGO could open new doors for human-centric 4D content creation.

arxiv情報

著者 Yukang Cao,Liang Pan,Kai Han,Kwan-Yee K. Wong,Ziwei Liu
発行日 2024-10-09 17:58:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | コメントする

Deciphering Cross-Modal Alignment in Large Vision-Language Models with Modality Integration Rate

要約

ラージ ビジョン言語モデル (LVLM) のマルチモーダル事前トレーニング品質を示す、効果的で堅牢かつ一般化された指標であるモダリティ統合率 (MIR) を紹介します。
大規模な事前トレーニングは、有能な LVLM を構築する上で重要な役割を果たしますが、コストのかかる監視付き微調整段階なしでトレーニングの品質を評価する方法は十分に検討されていません。
損失、パープレキシティ、およびインコンテキスト評価の結果は、大規模言語モデル (LLM) のトレーニング前のメトリクスとしてよく使用されますが、十分にトレーニングされた LLM を新しいモダリティと調整する場合、これらのメトリクスはあまり示唆的ではないことが観察されました。
適切な指標が欠如しているため、トレーニング データの選択、効率的なモジュール設計などを含む、重要な事前トレーニング段階での LVLM の研究が大幅に妨げられています。この論文では、事前トレーニングの品質を相互に評価することを提案します。
– モーダル分布距離の観点と現在の MIR、モダリティ統合率。これは 1) \textbf{Effective} で、トレーニング前の品質を表し、教師付き微調整後のベンチマーク パフォーマンスと正の関係を示します。
2) さまざまなトレーニング/評価データに対して \textbf{堅牢}。
3) トレーニング構成とアーキテクチャの選択全体にわたって \textbf{一般化}します。
私たちは、MIR の有効性を調査するために一連の事前トレーニング実験を実施し、より良い事前トレーニング結果を得るために MIR がトレーニング データの選択、トレーニング戦略のスケジュール、モデル アーキテクチャの設計を示すという満足のいく結果を観察しました。
MIR が有能な LVLM を構築するための有用な指標となり、さまざまな分野でのモダリティ調整に関する次の研究に影響を与えることを願っています。
私たちのコードは https://github.com/sekiw/Modality-Integration-Rate にあります。

要約(オリジナル)

We present the Modality Integration Rate (MIR), an effective, robust, and generalized metric to indicate the multi-modal pre-training quality of Large Vision Language Models (LVLMs). Large-scale pre-training plays a critical role in building capable LVLMs, while evaluating its training quality without the costly supervised fine-tuning stage is under-explored. Loss, perplexity, and in-context evaluation results are commonly used pre-training metrics for Large Language Models (LLMs), while we observed that these metrics are less indicative when aligning a well-trained LLM with a new modality. Due to the lack of proper metrics, the research of LVLMs in the critical pre-training stage is hindered greatly, including the training data choice, efficient module design, etc. In this paper, we propose evaluating the pre-training quality from the inter-modal distribution distance perspective and present MIR, the Modality Integration Rate, which is 1) \textbf{Effective} to represent the pre-training quality and show a positive relation with the benchmark performance after supervised fine-tuning. 2) \textbf{Robust} toward different training/evaluation data. 3) \textbf{Generalize} across training configurations and architecture choices. We conduct a series of pre-training experiments to explore the effectiveness of MIR and observe satisfactory results that MIR is indicative about training data selection, training strategy schedule, and model architecture design to get better pre-training results. We hope MIR could be a helpful metric for building capable LVLMs and inspire the following research about modality alignment in different areas. Our code is at: https://github.com/shikiw/Modality-Integration-Rate.

arxiv情報

著者 Qidong Huang,Xiaoyi Dong,Pan Zhang,Yuhang Zang,Yuhang Cao,Jiaqi Wang,Dahua Lin,Weiming Zhang,Nenghai Yu
発行日 2024-10-09 17:59:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV | コメントする

IterComp: Iterative Composition-Aware Feedback Learning from Model Gallery for Text-to-Image Generation

要約

RPG、Stable Diffusion 3、FLUX などの高度な拡散モデルは、テキストから画像への合成生成において顕著な進歩を遂げました。
ただし、これらの方法は通常、属性バインディングの処理に優れているものや、空間関係の処理に優れているものなど、構成生成に関して明確な強みを示します。
この差異は、さまざまなモデルの補完的な長所を活用して、合成機能を包括的に向上させるアプローチの必要性を浮き彫りにしています。
この目的を達成するために、複数のモデルから構成を意識したモデル設定を集約し、反復フィードバック学習アプローチを採用して構成生成を強化する新しいフレームワークである IterComp を紹介します。
具体的には、6 つの強力なオープンソース拡散モデルのギャラリーを厳選し、それらの 3 つの主要な構成指標 (属性バインディング、空間関係、非空間関係) を評価します。
これらのメトリクスに基づいて、構図を意識した報酬モデルをトレーニングするために、多数の画像ランクのペアで構成される構図を意識したモデル嗜好データセットを開発します。
次に、閉ループ方式で構成性を強化する反復フィードバック学習方法を提案します。これにより、複数の反復にわたってベース拡散モデルと報酬モデルの両方の漸進的な自己洗練が可能になります。
理論的な証明によって有効性が実証され、広範な実験によって、特にマルチカテゴリのオブジェクトの構成と複雑なセマンティックの調整において、以前の SOTA 手法 (Omost や FLUX など) よりも大幅に優れていることが示されています。
IterComp は、拡散モデルと組成生成のための報酬フィードバック学習における新しい研究の道を開きます。
コード: https://github.com/YangLing0818/IterComp

要約(オリジナル)

Advanced diffusion models like RPG, Stable Diffusion 3 and FLUX have made notable strides in compositional text-to-image generation. However, these methods typically exhibit distinct strengths for compositional generation, with some excelling in handling attribute binding and others in spatial relationships. This disparity highlights the need for an approach that can leverage the complementary strengths of various models to comprehensively improve the composition capability. To this end, we introduce IterComp, a novel framework that aggregates composition-aware model preferences from multiple models and employs an iterative feedback learning approach to enhance compositional generation. Specifically, we curate a gallery of six powerful open-source diffusion models and evaluate their three key compositional metrics: attribute binding, spatial relationships, and non-spatial relationships. Based on these metrics, we develop a composition-aware model preference dataset comprising numerous image-rank pairs to train composition-aware reward models. Then, we propose an iterative feedback learning method to enhance compositionality in a closed-loop manner, enabling the progressive self-refinement of both the base diffusion model and reward models over multiple iterations. Theoretical proof demonstrates the effectiveness and extensive experiments show our significant superiority over previous SOTA methods (e.g., Omost and FLUX), particularly in multi-category object composition and complex semantic alignment. IterComp opens new research avenues in reward feedback learning for diffusion models and compositional generation. Code: https://github.com/YangLing0818/IterComp

arxiv情報

著者 Xinchen Zhang,Ling Yang,Guohao Li,Yaqi Cai,Jiake Xie,Yong Tang,Yujiu Yang,Mengdi Wang,Bin Cui
発行日 2024-10-09 17:59:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | コメントする

Do better language models have crisper vision?

要約

テキストのみの大規模言語モデル (LLM) は、視覚的な世界をどの程度理解できますか?
コンピュータ ビジョンで LLM がますます使用されるようになるにつれて、この問題に対処することが基本的かつ適切になります。
ただし、既存の研究は主に、ビジュアル コンテンツを生成したり、マルチモーダル データをクラスタリングしたりする機能など、限られたシナリオに焦点を当てています。
この目的を達成するために、言語モデルを視覚的な世界と適切に整合させる主要なプロパティを分離する Visual Text Representation Benchmark (ViTeRB) を提案します。
これにより、テキスト エンコーダを利用する現在の慣行に対抗して、視覚中心のコンテキストでテキストを表現するための理想的な候補として、大規模デコーダ ベースの LLM が特定されました。
これらの発見に基づいて、超軽量の CLIP のようなモデルである ShareLock を提案します。
ShareLock は、強力なビジョンと言語モデルからの事前計算可能な凍結特徴を活用することで、わずか 563,000 個の画像とキャプションのペアを使用しているにもかかわらず、ImageNet 上で 51% という驚異的な精度を達成します。
さらに、トレーニングに必要な時間は GPU 時間わずか 1 時間 (特徴の事前計算を含めると 10 時間) であり、従来の方法よりも大幅に短縮されます。
コードが公開されます。

要約(オリジナル)

How well do text-only Large Language Models (LLMs) grasp the visual world? As LLMs are increasingly used in computer vision, addressing this question becomes both fundamental and pertinent. However, existing studies have primarily focused on limited scenarios, such as their ability to generate visual content or cluster multimodal data. To this end, we propose the Visual Text Representation Benchmark (ViTeRB) to isolate key properties that make language models well-aligned with the visual world. With this, we identify large-scale decoder-based LLMs as ideal candidates for representing text in vision-centric contexts, counter to the current practice of utilizing text encoders. Building on these findings, we propose ShareLock, an ultra-lightweight CLIP-like model. By leveraging precomputable frozen features from strong vision and language models, ShareLock achieves an impressive 51% accuracy on ImageNet despite utilizing just 563k image-caption pairs. Moreover, training requires only 1 GPU hour (or 10 hours including the precomputation of features) – orders of magnitude less than prior methods. Code will be released.

arxiv情報

著者 Jona Ruthardt,Gertjan J. Burghouts,Serge Belongie,Yuki M. Asano
発行日 2024-10-09 17:59:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV | コメントする