Language-Guided Diffusion Model for Visual Grounding

要約

視覚的に接地(VG)タスクには、明示的に対応する画像領域が提供される言語フレーズ用に配置されるため、明示的なクロスモーダルアライメントが含まれます。
既存のアプローチは、このような視覚的なテキスト推論を1段階で完了します。
それらのパフォーマンスは、大規模なアンカーに対する高い需要と、人間の事前に基づいた過剰設計のマルチモーダル融合モジュールを引き起こし、特定のシナリオにトレーニングして過剰に採用することが困難な複雑なフレームワークにつながります。
さらに悪いことに、このような1回の推論メカニズムは、クエリリージョンのマッチングを強化するために継続的にボックスを洗練することができません。
対照的に、この論文では、拡散モデリングを除去することにより、反復推論プロセスを策定します。
具体的には、視覚的接地の言語誘導拡散フレームワークであるLG-DVGを提案します。LG-DVGは、言語ガイドでノイズの多いボックスのセットを除去することにより、クエリのオブジェクトボックスを徐々に推論するようにモデルをトレーニングします。
これを達成するために、LG-DVGは、クエリセマンティクスを条件として、騒々しいものにクエリに合わせたグラウンドトゥルースボックスに徐々にグラウンドトゥルースボックスを段階的に逆転させます。
広く使用されている5つのデータセットに関する提案されたフレームワークの広範な実験は、生成的な方法で、モーダルアライメントタスクである視覚的接地を解くことの優れたパフォーマンスを検証します。
ソースコードは、https://github.com/iqua/vgbase/tree/main/examples/diffusionvgで入手できます。

要約(オリジナル)

Visual grounding (VG) tasks involve explicit cross-modal alignment, as semantically corresponding image regions are to be located for the language phrases provided. Existing approaches complete such visual-text reasoning in a single-step manner. Their performance causes high demands on large-scale anchors and over-designed multi-modal fusion modules based on human priors, leading to complicated frameworks that may be difficult to train and overfit to specific scenarios. Even worse, such once-for-all reasoning mechanisms are incapable of refining boxes continuously to enhance query-region matching. In contrast, in this paper, we formulate an iterative reasoning process by denoising diffusion modeling. Specifically, we propose a language-guided diffusion framework for visual grounding, LG-DVG, which trains the model to progressively reason queried object boxes by denoising a set of noisy boxes with the language guide. To achieve this, LG-DVG gradually perturbs query-aligned ground truth boxes to noisy ones and reverses this process step by step, conditional on query semantics. Extensive experiments for our proposed framework on five widely used datasets validate the superior performance of solving visual grounding, a cross-modal alignment task, in a generative way. The source codes are available at https://github.com/iQua/vgbase/tree/main/examples/DiffusionVG.

arxiv情報

著者 Sijia Chen,Baochun Li
発行日 2025-02-25 14:41:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.MM | Language-Guided Diffusion Model for Visual Grounding はコメントを受け付けていません

Personalized Topology-Informed Localization of Standard 12-Lead ECG Electrode Placement from Incomplete Cardiac MRIs for Efficient Cardiac Digital Twins

要約

心臓デジタルツイン(CDTS)は、心臓メカニズムに関連するマルチスケール特性の推論のためのパーソナライズされたシリコ内心臓表現を提供します。
CDTSの作成には、特にパーソナライズされた心電図(ECG)キャリブレーションの場合、胴体上の電極位置に関する正確な情報が必要です。
ただし、現在の研究は一般に、ECG電極の局在化のための胴体イメージングとマニュアル/半自動法の追加の獲得に依存しています。
この研究では、2D臨床的標準心臓MRIからパーソナライズされたECG標準電極の位置を完全に抽出するための、新規かつ効率的なトポロジに基づいたモデルを提案します。
具体的には、心臓MRIからスパース胴体の輪郭を取得し、輪郭から12リードECGの標準電極を局在させます。
心臓MRIは、胴体の代わりに心臓のイメージングを目指しており、イメージング内の胴体のジオメトリが不完全になります。
欠落しているトポロジに取り組むために、3D胴体トポロジーと明示的に整列できるキーポイントのサブセットとして電極を組み込みます。
実験結果は、提案されたモデルが精度(ユークリッド距離:$ 1.293 $ cm対1.48 \ PM \ PM 0.362 $ cm)と効率($ 2 $ 〜s対vs)の観点から、時間のかかる従来のモデル投影ベースの方法を上回ることを示しています。

さらに、シリコ内ECGシミュレーションに検出された電極を使用することの有効性を実証し、正確で効率的なCDTモデルを作成する可能性を強調します。
このコードは、https://github.com/lileitech/12lead_ecg_electrode_localizerで入手できます。

要約(オリジナル)

Cardiac digital twins (CDTs) offer personalized in-silico cardiac representations for the inference of multi-scale properties tied to cardiac mechanisms. The creation of CDTs requires precise information about the electrode position on the torso, especially for the personalized electrocardiogram (ECG) calibration. However, current studies commonly rely on additional acquisition of torso imaging and manual/semi-automatic methods for ECG electrode localization. In this study, we propose a novel and efficient topology-informed model to fully automatically extract personalized ECG standard electrode locations from 2D clinically standard cardiac MRIs. Specifically, we obtain the sparse torso contours from the cardiac MRIs and then localize the standard electrodes of 12-lead ECG from the contours. Cardiac MRIs aim at imaging of the heart instead of the torso, leading to incomplete torso geometry within the imaging. To tackle the missing topology, we incorporate the electrodes as a subset of the keypoints, which can be explicitly aligned with the 3D torso topology. The experimental results demonstrate that the proposed model outperforms the time-consuming conventional model projection-based method in terms of accuracy (Euclidean distance: $1.24 \pm 0.293$ cm vs. $1.48 \pm 0.362$ cm) and efficiency ($2$~s vs. $30$-$35$~min). We further demonstrate the effectiveness of using the detected electrodes for in-silico ECG simulation, highlighting their potential for creating accurate and efficient CDT models. The code is available at https://github.com/lileitech/12lead_ECG_electrode_localizer.

arxiv情報

著者 Lei Li,Hannah Smith,Yilin Lyu,Julia Camps,Shuang Qian,Blanca Rodriguez,Abhirup Banerjee,Vicente Grau
発行日 2025-02-25 14:57:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, eess.IV, physics.med-ph | Personalized Topology-Informed Localization of Standard 12-Lead ECG Electrode Placement from Incomplete Cardiac MRIs for Efficient Cardiac Digital Twins はコメントを受け付けていません

SGFormer: Spherical Geometry Transformer for 360 Depth Estimation

要約

パノラマの歪みは、特に北極と南極で顕著な360の深度推定で大きな課題をもたらします。
既存の方法は、歪みを除去するためのバイプロジェクション融合戦略を採用するか、長距離依存関係をモデル化してグローバルな構造をキャプチャします。
この論文では、SGFormerという名前の球状のジオメトリトランスを提案して、球形の幾何学的プレアを視覚変圧器に統合するための革新的なステップを備えた上記の問題に対処します。
この目的のために、トランスデコーダーを球形の事前デコーダー(SPDecoderと呼ぶ)にリターゲットします。これは、デコード中の球状構造の完全性を支持しようとしています。
具体的には、それぞれ双極性再投影、円形回転、および局所埋め込み曲線を活用して、それぞれ等距離、連続性、および表面距離の球形特性を維持します。
さらに、さまざまな解像度で空間構造を補償するために、クエリベースのグローバル条件付き位置埋め込みを提示します。
空間的位置のグローバルな認識を高めるだけでなく、異なるパッチ全体の深さ構造を研ぎます。
最後に、人気のあるベンチマークで広範な実験を実施し、最先端のソリューションに対する優位性を示しています。

要約(オリジナル)

Panoramic distortion poses a significant challenge in 360 depth estimation, particularly pronounced at the north and south poles. Existing methods either adopt a bi-projection fusion strategy to remove distortions or model long-range dependencies to capture global structures, which can result in either unclear structure or insufficient local perception. In this paper, we propose a spherical geometry transformer, named SGFormer, to address the above issues, with an innovative step to integrate spherical geometric priors into vision transformers. To this end, we retarget the transformer decoder to a spherical prior decoder (termed SPDecoder), which endeavors to uphold the integrity of spherical structures during decoding. Concretely, we leverage bipolar re-projection, circular rotation, and curve local embedding to preserve the spherical characteristics of equidistortion, continuity, and surface distance, respectively. Furthermore, we present a query-based global conditional position embedding to compensate for spatial structure at varying resolutions. It not only boosts the global perception of spatial position but also sharpens the depth structure across different patches. Finally, we conduct extensive experiments on popular benchmarks, demonstrating our superiority over state-of-the-art solutions.

arxiv情報

著者 Junsong Zhang,Zisong Chen,Chunyu Lin,Lang Nie,Zhijie Shen,Kang Liao,Junda Huang,Yao Zhao
発行日 2025-02-25 15:14:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | SGFormer: Spherical Geometry Transformer for 360 Depth Estimation はコメントを受け付けていません

Multimodality Helps Few-shot 3D Point Cloud Semantic Segmentation

要約

少数の3Dポイントクラウドセグメンテーション(FS-PCS)は、最小限の注釈付きサポートサンプルで新しいカテゴリをセグメント化するモデルを一般化することを目的としています。
既存のFS-PCSメソッドは有望であることを示していますが、主に単峰性ポイントクラウド入力に焦点を当て、マルチモーダル情報を活用する潜在的な利点を見落としています。
この論文では、マルチモーダルFS-PCSセットアップを導入して、テキストラベルと潜在的に利用可能な2D画像モダリティを利用することにより、このギャップに対処します。
この習慣の簡単なセットアップでは、複数のモダリティからの補完情報を効果的に活用するモデルであるマルチモーダルの少数のショットSEGNET(MM-FSS)を提示します。
MM-FSSは、2つのヘッドを持つ共有バックボーンを使用して、インターモーダルと非モーダルの視覚的特徴を抽出し、テキストの埋め込みを生成するために前処理されたテキストエンコーダを採用しています。
マルチモーダル情報を完全に活用するために、マルチモーダル相関(MCF)モジュールを提案してマルチモーダル相関を生成し、マルチモーダルセマンティックフュージョン(MSF)モジュールを生成して、テキスト認識セマンティックガイダンスを使用して相関を改善します。
さらに、トレーニングバイアスを緩和するためのシンプルで効果的なテスト時間適応クロスモーダルキャリブレーション(TACC)手法を提案し、一般化をさらに改善します。
S3DISおよびSCANNETデータセットの実験結果は、私たちの方法によって達成された大幅なパフォーマンスの改善を示しています。
私たちのアプローチの有効性は、FS-PCSの一般的に無視された自由モダリティを活用することの利点を示しており、将来の研究に貴重な洞察を提供します。
このコードは、https://github.com/zhaochongan/multimodality-3d-few-shotで入手できます

要約(オリジナル)

Few-shot 3D point cloud segmentation (FS-PCS) aims at generalizing models to segment novel categories with minimal annotated support samples. While existing FS-PCS methods have shown promise, they primarily focus on unimodal point cloud inputs, overlooking the potential benefits of leveraging multimodal information. In this paper, we address this gap by introducing a multimodal FS-PCS setup, utilizing textual labels and the potentially available 2D image modality. Under this easy-to-achieve setup, we present the MultiModal Few-Shot SegNet (MM-FSS), a model effectively harnessing complementary information from multiple modalities. MM-FSS employs a shared backbone with two heads to extract intermodal and unimodal visual features, and a pretrained text encoder to generate text embeddings. To fully exploit the multimodal information, we propose a Multimodal Correlation Fusion (MCF) module to generate multimodal correlations, and a Multimodal Semantic Fusion (MSF) module to refine the correlations using text-aware semantic guidance. Additionally, we propose a simple yet effective Test-time Adaptive Cross-modal Calibration (TACC) technique to mitigate training bias, further improving generalization. Experimental results on S3DIS and ScanNet datasets demonstrate significant performance improvements achieved by our method. The efficacy of our approach indicates the benefits of leveraging commonly-ignored free modalities for FS-PCS, providing valuable insights for future research. The code is available at https://github.com/ZhaochongAn/Multimodality-3D-Few-Shot

arxiv情報

著者 Zhaochong An,Guolei Sun,Yun Liu,Runjia Li,Min Wu,Ming-Ming Cheng,Ender Konukoglu,Serge Belongie
発行日 2025-02-25 15:23:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Multimodality Helps Few-shot 3D Point Cloud Semantic Segmentation はコメントを受け付けていません

MoFM: A Large-Scale Human Motion Foundation Model

要約

ファンデーションモデル(FM)は、多様なタスク全体のスケーラビリティと一般化により、研究者の注目を集めています。
FMSの成功と、大規模な言語モデル(LLMS)の進歩を推進した原則に触発され、MOFMを新しい動きの基礎モデルとして紹介します。
MOFMは、時間と空間の両方における複雑な人間の動きの意味的な理解のために設計されています。
大規模なトレーニングを容易にするために、MotionBookは、離散化された動きの包括的な人間のモーション辞書を設計および採用しています。
MotionBookは、サーマルキューブを使用して時空間モーションヒートマップをキャプチャし、個別の変異モデルから原理を適用して、より効率的でスケーラブルな表現のために人間の動きを離散ユニットにエンコードします。
大規模なモーションデータのコーパスで訓練されたMOFMは、多様なダウンストリームタスクに適応できる基礎バックボーンを提供し、ワンショット、監視なし、および監視されたタスクなどのパラダイムをサポートします。
この汎用性により、MOFMは幅広いモーションベースのアプリケーションに適しています。

要約(オリジナル)

Foundation Models (FM) have increasingly drawn the attention of researchers due to their scalability and generalization across diverse tasks. Inspired by the success of FMs and the principles that have driven advancements in Large Language Models (LLMs), we introduce MoFM as a novel Motion Foundation Model. MoFM is designed for the semantic understanding of complex human motions in both time and space. To facilitate large-scale training, MotionBook, a comprehensive human motion dictionary of discretized motions is designed and employed. MotionBook utilizes Thermal Cubes to capture spatio-temporal motion heatmaps, applying principles from discrete variational models to encode human movements into discrete units for a more efficient and scalable representation. MoFM, trained on a large corpus of motion data, provides a foundational backbone adaptable to diverse downstream tasks, supporting paradigms such as one-shot, unsupervised, and supervised tasks. This versatility makes MoFM well-suited for a wide range of motion-based applications.

arxiv情報

著者 Mohammadreza Baharani,Ghazal Alinezhad Noghre,Armin Danesh Pazho,Gabriel Maldonado,Hamed Tabkhi
発行日 2025-02-25 15:26:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG | MoFM: A Large-Scale Human Motion Foundation Model はコメントを受け付けていません

Stealthy Backdoor Attack in Self-Supervised Learning Vision Encoders for Large Vision Language Models

要約

自己教師の学習(SSL)ビジョンエンコーダーは、高品質の画像表現を学習するため、大型ビジョン言語モデル(LVLMS)のビジョンモダリティの開発の重要な部分になりました。
このようなエンコーダーのトレーニングのコストが高いため、事前に訓練されたエンコーダーは広く共有され、多くのLVLMに展開されています。
この実用的なシナリオの下で、単にビジョンエンコーダーを妥協することにより、これらのLVLMに重要な視覚幻覚を誘導できるという新しいバックドアの脅威を明らかにします。
これらのエンコーダーの共有と再利用により、多くの下流のLVLMはエンコーダーからバックドアの動作を継承し、広範囲にわたるバックドアにつながる可能性があります。
この作業では、新しいトリガー最適化とバックドア学習技術を備えたLVLMSのSSL Visionエンコーダーのこの脆弱性を活用する最初の方法であるBadvisionを提案します。
8つのベンチマークにまたがる2種類のSSLエンコーダーとLVLMのBadVisionを評価します。
BadVisionは、99%以上の攻撃成功率でLVLMSを攻撃者から選択した幻覚に効果的に駆動し、ステルス性を維持しながら77.6%の相対的な視覚理解エラーを引き起こすことを示します。
SOTAバックドア検出方法は、攻撃を効果的に検出できません。

要約(オリジナル)

Self-supervised learning (SSL) vision encoders learn high-quality image representations and thus have become a vital part of developing vision modality of large vision language models (LVLMs). Due to the high cost of training such encoders, pre-trained encoders are widely shared and deployed into many LVLMs, which are security-critical or bear societal significance. Under this practical scenario, we reveal a new backdoor threat that significant visual hallucinations can be induced into these LVLMs by merely compromising vision encoders. Because of the sharing and reuse of these encoders, many downstream LVLMs may inherit backdoor behaviors from encoders, leading to widespread backdoors. In this work, we propose BadVision, the first method to exploit this vulnerability in SSL vision encoders for LVLMs with novel trigger optimization and backdoor learning techniques. We evaluate BadVision on two types of SSL encoders and LVLMs across eight benchmarks. We show that BadVision effectively drives the LVLMs to attacker-chosen hallucination with over 99% attack success rate, causing a 77.6% relative visual understanding error while maintaining the stealthiness. SoTA backdoor detection methods cannot detect our attack effectively.

arxiv情報

著者 Zhaoyi Liu,Huan Zhang
発行日 2025-02-25 15:28:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Stealthy Backdoor Attack in Self-Supervised Learning Vision Encoders for Large Vision Language Models はコメントを受け付けていません

Duo Streamers: A Streaming Gesture Recognition Framework

要約

リソース制約のシナリオでのジェスチャー認識は、高精度と低遅延を達成する上で大きな課題に直面しています。
この論文で提案されているストリーミングジェスチャー認識フレームワーク、デュオストリーマーは、3段階のスパース認識メカニズム、外部隠された状態を持つRNNライトモデル、特殊なトレーニングとポスト処理パイプラインを通じてこれらの課題に対処し、それによって革新的な進歩を遂げます。
リアルタイムのパフォーマンスと軽量デザイン。
実験結果は、デュオストリーマーが精度メトリックの主流の方法を一致させ、リアルタイム係数を約92.3%削減すること、つまり13倍近くのスピードアップを提供することを示しています。
さらに、フレームワークは、主流モデルと比較して、パラメーターカウントを1/38(アイドル状態)および1/9(ビジー状態)に縮小します。
要約すると、DUOストリーマーは、リソースに制約のあるデバイスでジェスチャー認識をストリーミングするための効率的かつ実用的なソリューションを提供するだけでなく、マルチモーダルで多様なシナリオで拡張アプリケーションのための強固な基盤を置いています。

要約(オリジナル)

Gesture recognition in resource-constrained scenarios faces significant challenges in achieving high accuracy and low latency. The streaming gesture recognition framework, Duo Streamers, proposed in this paper, addresses these challenges through a three-stage sparse recognition mechanism, an RNN-lite model with an external hidden state, and specialized training and post-processing pipelines, thereby making innovative progress in real-time performance and lightweight design. Experimental results show that Duo Streamers matches mainstream methods in accuracy metrics, while reducing the real-time factor by approximately 92.3%, i.e., delivering a nearly 13-fold speedup. In addition, the framework shrinks parameter counts to 1/38 (idle state) and 1/9 (busy state) compared to mainstream models. In summary, Duo Streamers not only offers an efficient and practical solution for streaming gesture recognition in resource-constrained devices but also lays a solid foundation for extended applications in multimodal and diverse scenarios.

arxiv情報

著者 Boxuan Zhu,Sicheng Yang,Zhuo Wang,Haining Liang,Junxiao Shen
発行日 2025-02-25 15:39:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Duo Streamers: A Streaming Gesture Recognition Framework はコメントを受け付けていません

Both Ears Wide Open: Towards Language-Driven Spatial Audio Generation

要約

最近、拡散モデルはモノチャネルオーディオ生成で大きな成功を収めています。
ただし、ステレオオーディオ生成に関しては、サウンドスケープには、複数のオブジェクトと方向の複雑なシーンがあることがよくあります。
空間的コンテキストでステレオオーディオを制御することは、高いデータコストと不安定な生成モデルのために依然として困難です。
私たちの知る限り、この作品はこれらの問題に対処する最初の試みを表しています。
まず、大規模なシミュレーションベース、およびGPTアシストされたデータセット、Bewo-1Mを構築し、移動や複数のソースを含む豊富なサウンドスケープや説明を備えています。
テキストのモダリティを超えて、検索を通じて一連の画像と合理的にペアのステレオオーディオを取得して、マルチモーダル生成を進めています。
既存のオーディオ生成モデルは、かなりランダムで不明瞭な空間オーディオを生成する傾向があります。
潜在的な拡散モデルに正確なガイダンスを提供するために、空間認識エンコーダーと方位角状態のマトリックスを使用して、合理的な空間ガイダンスを明らかにする空間モデルを導入します。
空間ガイダンスを活用することにより、私たちのモデルは、テキストから没入型で制御可能な空間オーディオを生成するという目的を達成するだけでなく、先駆者の試みとして他のモダリティにも拡張されます。
最後に、公正な設定では、シミュレートされた現実世界のデータに関する主観的および客観的な評価を実施して、アプローチと一般的な方法を比較します。
結果は、私たちの方法の有効性を示しており、物理的ルールを順守する空間オーディオを生成する能力を強調しています。

要約(オリジナル)

Recently, diffusion models have achieved great success in mono-channel audio generation. However, when it comes to stereo audio generation, the soundscapes often have a complex scene of multiple objects and directions. Controlling stereo audio with spatial contexts remains challenging due to high data costs and unstable generative models. To the best of our knowledge, this work represents the first attempt to address these issues. We first construct a large-scale, simulation-based, and GPT-assisted dataset, BEWO-1M, with abundant soundscapes and descriptions even including moving and multiple sources. Beyond text modality, we have also acquired a set of images and rationally paired stereo audios through retrieval to advance multimodal generation. Existing audio generation models tend to generate rather random and indistinct spatial audio. To provide accurate guidance for Latent Diffusion Models, we introduce the SpatialSonic model utilizing spatial-aware encoders and azimuth state matrices to reveal reasonable spatial guidance. By leveraging spatial guidance, our model not only achieves the objective of generating immersive and controllable spatial audio from text but also extends to other modalities as the pioneer attempt. Finally, under fair settings, we conduct subjective and objective evaluations on simulated and real-world data to compare our approach with prevailing methods. The results demonstrate the effectiveness of our method, highlighting its capability to generate spatial audio that adheres to physical rules.

arxiv情報

著者 Peiwen Sun,Sitong Cheng,Xiangtai Li,Zhen Ye,Huadai Liu,Honggang Zhang,Wei Xue,Yike Guo
発行日 2025-02-25 15:42:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.SD, eess.AS | Both Ears Wide Open: Towards Language-Driven Spatial Audio Generation はコメントを受け付けていません

LDGen: Enhancing Text-to-Image Synthesis via Large Language Model-Driven Language Representation

要約

この論文では、計算需要を最小限に抑えながら、既存のテキストから画像間拡散モデルに大規模な言語モデル(LLM)を統合するための新しい方法であるLDGENを紹介します。
ClipやT5などの従来のテキストエンコーダーは、多言語処理の制限を示し、多様な言語全体の画像生成を妨げます。
LLMSの高度な機能を活用することにより、これらの課題に対処します。
私たちのアプローチは、階層的なキャプションの最適化と人間の指導手法を適用して、正確な意味情報を導き出す言語表現戦略を採用しています。
その後、LLMSと画像機能の間の効率的な機能のアラインメントと相互作用を容易にするために、軽量アダプターとクロスモーダルリファイナーを組み込みます。
LDGENはトレーニング時間を短縮し、ゼロショット多言語画像生成を可能にします。
実験結果は、私たちの方法が、迅速な順守と画像の美的品質の両方でベースラインモデルを上回り、複数の言語をシームレスにサポートすることを示しています。
プロジェクトページ:https://zrealli.github.io/ldgen。

要約(オリジナル)

In this paper, we introduce LDGen, a novel method for integrating large language models (LLMs) into existing text-to-image diffusion models while minimizing computational demands. Traditional text encoders, such as CLIP and T5, exhibit limitations in multilingual processing, hindering image generation across diverse languages. We address these challenges by leveraging the advanced capabilities of LLMs. Our approach employs a language representation strategy that applies hierarchical caption optimization and human instruction techniques to derive precise semantic information,. Subsequently, we incorporate a lightweight adapter and a cross-modal refiner to facilitate efficient feature alignment and interaction between LLMs and image features. LDGen reduces training time and enables zero-shot multilingual image generation. Experimental results indicate that our method surpasses baseline models in both prompt adherence and image aesthetic quality, while seamlessly supporting multiple languages. Project page: https://zrealli.github.io/LDGen.

arxiv情報

著者 Pengzhi Li,Pengfei Yu,Zide Liu,Wei He,Xuhao Pan,Xudong Rao,Tao Wei,Wei Chen
発行日 2025-02-25 15:42:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | LDGen: Enhancing Text-to-Image Synthesis via Large Language Model-Driven Language Representation はコメントを受け付けていません

GCDance: Genre-Controlled 3D Full Body Dance Generation Driven By Music

要約

音楽から高品質のフルボディダンスシーケンスを生成することは、ジャンル固有の振り付けを厳密に遵守する必要があるため、挑戦的な作業です。
さらに、生成されたシーケンスは、物理的に現実的であり、音楽のビートとリズムと正確に同期している必要があります。
これらの課題を克服するために、音楽とテキストのプロンプトの両方に条件付けられたジャンル固有のダンスモーションを生成するための分類器のない拡散フレームワークであるGCDANCEを提案します。
具体的には、私たちのアプローチは、高レベルの事前訓練を受けた音楽ファンデーションモデル機能と、多粒度機能の融合の手作りされた機能を組み合わせることで、音楽機能を抽出します。
ジャンルの制御性を実現するために、クリップを活用して、ダンスジェネレーションパイプライン内の各時間ステップで、ジャンルベースのテキストプロンプト表現を効率的に埋め込みます。
GCDANCEフレームワークは、音楽のリズムとメロディーとの一貫性を確保しながら、同じ音楽から多様なダンススタイルを生成できます。
罰金データセットで得られた広範な実験結果は、GCDANCEが既存の最先端のアプローチを大幅に上回ることを示しています。
私たちのアブレーションと推論時間分析は、GCDANCEが高品質の音楽主導のダンス生成に効果的なソリューションを提供することを示しています。

要約(オリジナル)

Generating high-quality full-body dance sequences from music is a challenging task as it requires strict adherence to genre-specific choreography. Moreover, the generated sequences must be both physically realistic and precisely synchronized with the beats and rhythm of the music. To overcome these challenges, we propose GCDance, a classifier-free diffusion framework for generating genre-specific dance motions conditioned on both music and textual prompts. Specifically, our approach extracts music features by combining high-level pre-trained music foundation model features with hand-crafted features for multi-granularity feature fusion. To achieve genre controllability, we leverage CLIP to efficiently embed genre-based textual prompt representations at each time step within our dance generation pipeline. Our GCDance framework can generate diverse dance styles from the same piece of music while ensuring coherence with the rhythm and melody of the music. Extensive experimental results obtained on the FineDance dataset demonstrate that GCDance significantly outperforms the existing state-of-the-art approaches, which also achieve competitive results on the AIST++ dataset. Our ablation and inference time analysis demonstrate that GCDance provides an effective solution for high-quality music-driven dance generation.

arxiv情報

著者 Xinran Liu,Xu Dong,Diptesh Kanojia,Wenwu Wang,Zhenhua Feng
発行日 2025-02-25 15:53:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.GR, cs.SD, eess.AS | GCDance: Genre-Controlled 3D Full Body Dance Generation Driven By Music はコメントを受け付けていません