AttenST: A Training-Free Attention-Driven Style Transfer Framework with Pre-Trained Diffusion Models

要約

拡散モデルはスタイル転送タスクで顕著な進歩を遂げましたが、既存の方法は通常、推論中に事前に訓練されたモデルの微調整または最適化に依存しており、コンテンツの保存とスタイル統合のバランスをとる際の高い計算コストと課題につながります。
これらの制限に対処するために、トレーニングなしの注意駆動型スタイル転送フレームワークであるAttenstを紹介します。
具体的には、コンテンツイメージのクエリを保持しながらキーと価値をスタイルイメージのものに置き換え、効果的なスタイル機能の統合を可能にすることにより、参照スタイルの自己触媒を条件付けるスタイルガイドの自己触媒メカニズムを提案します。
反転中のスタイル情報の損失を緩和するために、複数の再サンプリングステップを通じて反転精度を改善するスタイルを浸した反転戦略を導入します。
さらに、コンテンツを意識した適応インスタンスの正規化を提案します。これは、コンテンツ統計を正規化プロセスに統合して、コンテンツの劣化を軽減しながらスタイルの融合を最適化します。
さらに、コンテンツとスタイルの特徴を融合するためのデュアルフィーチャーの交差メカニズムを導入し、構造的忠実度とスタイルの表現の調和のとれた合成を確保します。
広範な実験は、Attenstが既存の方法を上回り、スタイル転送データセットで最先端のパフォーマンスを達成することを示しています。

要約(オリジナル)

While diffusion models have achieved remarkable progress in style transfer tasks, existing methods typically rely on fine-tuning or optimizing pre-trained models during inference, leading to high computational costs and challenges in balancing content preservation with style integration. To address these limitations, we introduce AttenST, a training-free attention-driven style transfer framework. Specifically, we propose a style-guided self-attention mechanism that conditions self-attention on the reference style by retaining the query of the content image while substituting its key and value with those from the style image, enabling effective style feature integration. To mitigate style information loss during inversion, we introduce a style-preserving inversion strategy that refines inversion accuracy through multiple resampling steps. Additionally, we propose a content-aware adaptive instance normalization, which integrates content statistics into the normalization process to optimize style fusion while mitigating the content degradation. Furthermore, we introduce a dual-feature cross-attention mechanism to fuse content and style features, ensuring a harmonious synthesis of structural fidelity and stylistic expression. Extensive experiments demonstrate that AttenST outperforms existing methods, achieving state-of-the-art performance in style transfer dataset.

arxiv情報

著者 Bo Huang,Wenlun Xu,Qizhuo Han,Haodong Jing,Ying Li
発行日 2025-03-10 13:28:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | AttenST: A Training-Free Attention-Driven Style Transfer Framework with Pre-Trained Diffusion Models はコメントを受け付けていません

BillBoard Splatting (BBSplat): Learnable Textured Primitives for Novel View Synthesis

要約

ビルボードスプラッティング(BBSPLAT) – テクスチャの幾何学的プリミティブに基づいた新規ビュー合成の新しいアプローチを提示します。
BBSPLATは、学習可能なRGBテクスチャとアルファマップを備えた最適化可能なテクスチャプレータープリミティブのセットとして、その形状を制御するシーンを表します。
BBSPlatプリミティブは、ガウスのスプラットパイプラインでガウスのドロップイン置換として使用できます。
提案されたプリミティブは、2Dガウススプラッティング(GS)のレンダリング品質ギャップを閉じ、2DGSフレームワークのように3Dメッシュの正確な抽出を可能にします。
さらに、平面プリミティブの明示的な性質により、ラスター化における光線追跡効果を使用することができます。
私たちの斬新な正規化用語は、テクスチャを促進し、3DGと比較してモデルのストレージスペースがx17回まで縮小する効率的な圧縮を可能にします。
私たちの実験は、Tanks&Temples、DTU、MIP-NERF-360などの実際の屋内および屋外シーンの標準的なデータセットでのBBSPLATの効率を示しています。
つまり、完全なHD解像度でDTUの最先端のPSNRは29.72の最先端のPSNRを達成します。

要約(オリジナル)

We present billboard Splatting (BBSplat) – a novel approach for novel view synthesis based on textured geometric primitives. BBSplat represents the scene as a set of optimizable textured planar primitives with learnable RGB textures and alpha-maps to control their shape. BBSplat primitives can be used in any Gaussian Splatting pipeline as drop-in replacements for Gaussians. The proposed primitives close the rendering quality gap between 2D and 3D Gaussian Splatting (GS), enabling the accurate extraction of 3D mesh as in the 2DGS framework. Additionally, the explicit nature of planar primitives enables the use of the ray-tracing effects in rasterization. Our novel regularization term encourages textures to have a sparser structure, enabling an efficient compression that leads to a reduction in the storage space of the model up to x17 times compared to 3DGS. Our experiments show the efficiency of BBSplat on standard datasets of real indoor and outdoor scenes such as Tanks&Temples, DTU, and Mip-NeRF-360. Namely, we achieve a state-of-the-art PSNR of 29.72 for DTU at Full HD resolution.

arxiv情報

著者 David Svitov,Pietro Morerio,Lourdes Agapito,Alessio Del Bue
発行日 2025-03-10 13:33:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | BillBoard Splatting (BBSplat): Learnable Textured Primitives for Novel View Synthesis はコメントを受け付けていません

Automated Movie Generation via Multi-Agent CoT Planning

要約

既存の長い形式のビデオ生成フレームワークには、自動計画がなく、ストーリーライン、シーン、映画撮影、キャラクターの相互作用の手動入力が必要であり、高コストと非効率性をもたらします。
これらの課題に対処するために、マルチエージェントチェーン(COT)計画を介した自動ムービー生成であるMovieAgentを提示します。
MovieAgentは2つの重要な利点を提供します。1)最初に、自動化された映画/ロングビデオジェネレーションのパラダイムを探求して定義します。
スクリプトとキャラクターバンクを考えると、私たちのMovieagentは、コヒーレントな物語を備えたマルチシーンのマルチショットの長いビデオビデオを生成し、映画全体でキャラクターの一貫性、同期された字幕、安定したオーディオを確保します。
2)MovieAgentは、シーン、カメラの設定、映画撮影を自動的に構成し、人間の努力を大幅に削減するための階層的なCOTベースの推論プロセスを導入します。
MovieAgentは、複数のLLMエージェントを採用してディレクター、脚本家、ストーリーボードアーティスト、ロケーションマネージャーの役​​割をシミュレートすることにより、プロダクションパイプラインを合理化します。
実験は、Movieagentがスクリプトの忠実さ、キャラクターの一貫性、および物語の一貫性において、新しい最新の結果を達成することを示しています。
階層的なフレームワークは一歩前進し、完全に自動化された映画生成に関する新しい洞察を提供します。
コードおよびプロジェクトのWebサイトは、https://github.com/showlab/movieagentおよびhttps://weijiawu.github.io/movieagentで入手できます。

要約(オリジナル)

Existing long-form video generation frameworks lack automated planning, requiring manual input for storylines, scenes, cinematography, and character interactions, resulting in high costs and inefficiencies. To address these challenges, we present MovieAgent, an automated movie generation via multi-agent Chain of Thought (CoT) planning. MovieAgent offers two key advantages: 1) We firstly explore and define the paradigm of automated movie/long-video generation. Given a script and character bank, our MovieAgent can generates multi-scene, multi-shot long-form videos with a coherent narrative, while ensuring character consistency, synchronized subtitles, and stable audio throughout the film. 2) MovieAgent introduces a hierarchical CoT-based reasoning process to automatically structure scenes, camera settings, and cinematography, significantly reducing human effort. By employing multiple LLM agents to simulate the roles of a director, screenwriter, storyboard artist, and location manager, MovieAgent streamlines the production pipeline. Experiments demonstrate that MovieAgent achieves new state-of-the-art results in script faithfulness, character consistency, and narrative coherence. Our hierarchical framework takes a step forward and provides new insights into fully automated movie generation. The code and project website are available at: https://github.com/showlab/MovieAgent and https://weijiawu.github.io/MovieAgent.

arxiv情報

著者 Weijia Wu,Zeyu Zhu,Mike Zheng Shou
発行日 2025-03-10 13:33:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Automated Movie Generation via Multi-Agent CoT Planning はコメントを受け付けていません

Group-robust Sample Reweighting for Subpopulation Shifts via Influence Functions

要約

機械学習モデルは、データ分布の亜集団(別名、グループ)の間で不均一なパフォーマンスをしばしば持っています。
これは、展開中にグループの割合がシフトするときにモデルが一般化するという重要な課題をもたらします。
このようなシフトの堅牢性を向上させるために、既存のアプローチは、グループ標識データを使用してモデルを訓練したり、ハイパーパラメーターチューニングを実行して、グループに対する最悪のケース損失を最小限に抑える戦略を開発しました。
ただし、顕著な改善を得るには、多くの場合、無言の量の高品質ラベルが必要です。
ラベルのコストを考えると、グループラベルの効率を高めるために異なるパラダイムを採用することを提案します。グループ標識データを他のグループに照らしないデータの重みを最適化するターゲットセットとして利用します。
グループロボストサンプルの再重み付け(GSR)を導入します。これは、グループに覆われていないデータから最初に表現を学習する2段階のアプローチを導入し、その後、影響関数を使用して再廃棄されたデータに最後の層を繰り返し再調整することにより、モデルをいじくり回します。
当社のGSRは理論的に健全で、実質的に軽量であり、亜集団シフトの堅牢性を改善するのに効果的です。
特に、GSRは、同じ量またはさらに多くのグループラベルを必要とする以前の最先端のアプローチよりも優れています。

要約(オリジナル)

Machine learning models often have uneven performance among subpopulations (a.k.a., groups) in the data distributions. This poses a significant challenge for the models to generalize when the proportions of the groups shift during deployment. To improve robustness to such shifts, existing approaches have developed strategies that train models or perform hyperparameter tuning using the group-labeled data to minimize the worst-case loss over groups. However, a non-trivial amount of high-quality labels is often required to obtain noticeable improvements. Given the costliness of the labels, we propose to adopt a different paradigm to enhance group label efficiency: utilizing the group-labeled data as a target set to optimize the weights of other group-unlabeled data. We introduce Group-robust Sample Reweighting (GSR), a two-stage approach that first learns the representations from group-unlabeled data, and then tinkers the model by iteratively retraining its last layer on the reweighted data using influence functions. Our GSR is theoretically sound, practically lightweight, and effective in improving the robustness to subpopulation shifts. In particular, GSR outperforms the previous state-of-the-art approaches that require the same amount or even more group labels.

arxiv情報

著者 Rui Qiao,Zhaoxuan Wu,Jingtan Wang,Pang Wei Koh,Bryan Kian Hsiang Low
発行日 2025-03-10 13:34:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG | Group-robust Sample Reweighting for Subpopulation Shifts via Influence Functions はコメントを受け付けていません

GAGS: Granularity-Aware Feature Distillation for Language Gaussian Splatting

要約

空間内のオブジェクトの複雑なセマンティックプロパティを正確に認識している3Dオープンボキャブラリーシーンの理解は、近年大きな注目を集めています。
このホワイトペーパーでは、2Dクリップ機能を3Dガウススプラッティングに蒸留するフレームワークであるGAGSを提案し、任意の視点でのレンダリングのオープンボキャブラリークエリを可能にします。
3Dフィールドの2D機能を蒸留するという主な課題は、抽出された2D機能のマルチビューの不一致にあり、3D機能フィールドの不安定な監督を提供します。
Gagsは、この課題に2つの新しい戦略を備えています。
まず、GAGSはSAMのプロンプトポイント密度をカメラ距離に関連付けます。これにより、セグメンテーション結果のマルチビューの一貫性が大幅に向上します。
第二に、GAGSは微妙な係数をさらに解読して蒸留プロセスを導き、この粒度係数は、蒸留プロセスでマルチビューの一貫した2D機能を選択するために、監視されていない方法で学習できます。
2つのデータセットでの実験結果は、視覚的接地とセマンティックセグメンテーションにおけるギャグの大幅なパフォーマンスと安定性の改善を示しています。
コードと追加の結果は、https://pz0826.github.io/gags-webpage/で入手できます。

要約(オリジナル)

3D open-vocabulary scene understanding, which accurately perceives complex semantic properties of objects in space, has gained significant attention in recent years. In this paper, we propose GAGS, a framework that distills 2D CLIP features into 3D Gaussian splatting, enabling open-vocabulary queries for renderings on arbitrary viewpoints. The main challenge of distilling 2D features for 3D fields lies in the multiview inconsistency of extracted 2D features, which provides unstable supervision for the 3D feature field. GAGS addresses this challenge with two novel strategies. First, GAGS associates the prompt point density of SAM with the camera distances, which significantly improves the multiview consistency of segmentation results. Second, GAGS further decodes a granularity factor to guide the distillation process and this granularity factor can be learned in a unsupervised manner to only select the multiview consistent 2D features in the distillation process. Experimental results on two datasets demonstrate significant performance and stability improvements of GAGS in visual grounding and semantic segmentation, with an inference speed 2$\times$ faster than baseline methods. The code and additional results are available at https://pz0826.github.io/GAGS-Webpage/ .

arxiv情報

著者 Yuning Peng,Haiping Wang,Yuan Liu,Chenglu Wen,Zhen Dong,Bisheng Yang
発行日 2025-03-10 13:37:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | GAGS: Granularity-Aware Feature Distillation for Language Gaussian Splatting はコメントを受け付けていません

Dynamic Path Navigation for Motion Agents with LLM Reasoning

要約

大規模な言語モデル(LLMS)は、強力な一般化可能な推論と計画機能を実証しています。
ただし、空間経路計画と障害のない軌跡の生成におけるそれらの効率は未把握のままです。
NavigationのLLMを活用することは、目に見えないシナリオを処理し、ユーザーエージェントの相互作用をサポートし、複雑なシステム全体でグローバルな制御を提供するLLMSの能力を考慮して、重大な可能性を保持し、エージェント計画とヒューマノイドモーション生成に適しています。
このドメインの最初の研究の1つとして、データセットを構築し、評価プロトコルを提案することにより、LLMSのゼロショットナビゲーションとパス生成機能を調査します。
具体的には、直線で接続されたアンカーポイントを使用してパスを表し、さまざまな方向に動きを可能にします。
このアプローチは、LLMのシンプルで直感的なままでありながら、以前の方法と比較して、より柔軟性と実用性を高めます。
この方法でタスクが十分に構築されている場合、現代のLLMは、ターゲットに到達するために生成された動きで自律的に操作を改良しながら、障害を回避するのにかなりの計画習熟度を示すことを実証します。
さらに、静的環境で相互作用する単一のLLMモーションエージェントのこの空間的推論能力は、動的環境でのマルチモーションエージェント調整でシームレスに一般化できます。
シングルステップの計画やローカルポリシーに依存する従来のアプローチとは異なり、トレーニングなしのLLMベースの方法により、グローバルで動的な閉ループ計画、および衝突問題の自律的に解決することができます。

要約(オリジナル)

Large Language Models (LLMs) have demonstrated strong generalizable reasoning and planning capabilities. However, their efficacies in spatial path planning and obstacle-free trajectory generation remain underexplored. Leveraging LLMs for navigation holds significant potential, given LLMs’ ability to handle unseen scenarios, support user-agent interactions, and provide global control across complex systems, making them well-suited for agentic planning and humanoid motion generation. As one of the first studies in this domain, we explore the zero-shot navigation and path generation capabilities of LLMs by constructing a dataset and proposing an evaluation protocol. Specifically, we represent paths using anchor points connected by straight lines, enabling movement in various directions. This approach offers greater flexibility and practicality compared to previous methods while remaining simple and intuitive for LLMs. We demonstrate that, when tasks are well-structured in this manner, modern LLMs exhibit substantial planning proficiency in avoiding obstacles while autonomously refining navigation with the generated motion to reach the target. Further, this spatial reasoning ability of a single LLM motion agent interacting in a static environment can be seamlessly generalized in multi-motion agents coordination in dynamic environments. Unlike traditional approaches that rely on single-step planning or local policies, our training-free LLM-based method enables global, dynamic, closed-loop planning, and autonomously resolving collision issues.

arxiv情報

著者 Yubo Zhao,Qi Wu,Yifan Wang,Yu-Wing Tai,Chi-Keung Tang
発行日 2025-03-10 13:39:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.RO | Dynamic Path Navigation for Motion Agents with LLM Reasoning はコメントを受け付けていません

Mitigating Hallucinations in YOLO-based Object Detection Models: A Revisit to Out-of-Distribution Detection

要約

オブジェクト検出システムは、動的環境での安全な意思決定を確保するために過度に自信を持つことなく、関心のあるオブジェクトを確実に知覚する必要があります。
分散除外(OOD)検出に基づくフィルタリング手法は、一般的に、新しいオブジェクトの自信過剰によって引き起こされる幻覚をフィルタリングするための追加の保護手段として追加されています。
それにもかかわらず、既存のOODベンチマークの下でヨロファミリー検出器とそのフィルターを評価することは、しばしば不十分なパフォーマンスにつながります。
この論文は、パフォーマンスボトルネックの根本的な理由を研究し、パフォーマンスを根本的に改善する方法を提案します。
私たちの最初の貢献は、既存のすべての評価結果のキャリブレーションです。既存のOODベンチマークデータセットの画像は、ディストリビューション(ID)クラス(つまり、トレーニングデータセットで定義されたカテゴリ)内にオブジェクトを持っていないと主張されていますが、オブジェクト検出器によって検出されたオブジェクトの約13%は実際にはIDオブジェクトです。
二重に、OODオブジェクトを含むIDデータセットは、フィルターの決定境界にも悪影響を与える可能性があります。
これらは最終的に、パフォーマンスの推定を大幅に非難することにつながります。
私たちの2番目の貢献は、幻覚の減少のタスクを、検出器とフィルターの共同パイプラインとして考慮することです。
検出されるオブジェクトに意味的に似ているOODデータセットを慎重に合成する方法論を開発することにより、オブジェクトスコアを抑制するためにYolo検出器の微調整で細工されたOODデータセットを使用して、自己調整された検出システムでの全体的な幻覚エラーの88%の減少を達成します。
コードとデータセットは、https://gricad-gitlab.univ-grenoble-alpes.fr/dnn-safety/m-hoodで入手できます。

要約(オリジナル)

Object detection systems must reliably perceive objects of interest without being overly confident to ensure safe decision-making in dynamic environments. Filtering techniques based on out-of-distribution (OoD) detection are commonly added as an extra safeguard to filter hallucinations caused by overconfidence in novel objects. Nevertheless, evaluating YOLO-family detectors and their filters under existing OoD benchmarks often leads to unsatisfactory performance. This paper studies the underlying reasons for performance bottlenecks and proposes a methodology to improve performance fundamentally. Our first contribution is a calibration of all existing evaluation results: Although images in existing OoD benchmark datasets are claimed not to have objects within in-distribution (ID) classes (i.e., categories defined in the training dataset), around 13% of objects detected by the object detector are actually ID objects. Dually, the ID dataset containing OoD objects can also negatively impact the decision boundary of filters. These ultimately lead to a significantly imprecise performance estimation. Our second contribution is to consider the task of hallucination reduction as a joint pipeline of detectors and filters. By developing a methodology to carefully synthesize an OoD dataset that semantically resembles the objects to be detected, and using the crafted OoD dataset in the fine-tuning of YOLO detectors to suppress the objectness score, we achieve a 88% reduction in overall hallucination error with a combined fine-tuned detection and filtering system on the self-driving benchmark BDD-100K. Our code and dataset are available at: https://gricad-gitlab.univ-grenoble-alpes.fr/dnn-safety/m-hood.

arxiv情報

著者 Weicheng He,Changshun Wu,Chih-Hong Cheng,Xiaowei Huang,Saddek Bensalem
発行日 2025-03-10 13:42:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.SE | Mitigating Hallucinations in YOLO-based Object Detection Models: A Revisit to Out-of-Distribution Detection はコメントを受け付けていません

PriorMotion: Generative Class-Agnostic Motion Prediction with Raster-Vector Motion Field Priors

要約

信頼できる空間と動きの認識は、安全な自律的なナビゲーションに不可欠です。
最近、Lidar Point Cloudsに由来するBird’seye View(BEV)セルグリッドに関するクラスに依存しないモーション予測が大きな注目を集めています。
ただし、既存のフレームワークは通常、ピクセルごとにセルの分類とモーション予測を実行し、剛性制約、時間的一貫性、エージェント間の将来の相互作用などの重要なモーションフィールドプライアーを無視します。
これらの制限は、特にまばらで遠い地域でのパフォーマンスの低下につながります。
これらの課題に対処するために、\ textBf {priormotion}を紹介します。これは、構造化された潜在空間内の分布としてそれらをモデル化することにより、本質的な動き事項を統合するクラスに依存しないモーション予測のために設計された革新的な生成フレームワークです。
具体的には、私たちの方法は、ラスターベクトル表現を使用して構造化された運動プライアーをキャプチャし、明確な動的コンポーネントと静的コンポーネントを備えた変動自動エンコーダーを使用して、潜在空間で将来の動き分布を学習します。
Nuscenesデータセットの実験は、\ textBf {priormotion}が、従来のメトリックと新たに提案された評価基準の両方で最先端の方法を上回ることを示しています。
特に、急速に移動するオブジェクトの精度が約15.24 \%の改善、一般化の3.59%の増加、運動安定性の0.0163の減少、遠隔地域の予測エラーの31.52 \%の減少を達成します。
FMCW LIDARセンサーのさらなる検証は、アプローチの堅牢性を確認します。

要約(オリジナル)

Reliable spatial and motion perception is essential for safe autonomous navigation. Recently, class-agnostic motion prediction on bird’s-eye view (BEV) cell grids derived from LiDAR point clouds has gained significant attention. However, existing frameworks typically perform cell classification and motion prediction on a per-pixel basis, neglecting important motion field priors such as rigidity constraints, temporal consistency, and future interactions between agents. These limitations lead to degraded performance, particularly in sparse and distant regions. To address these challenges, we introduce \textbf{PriorMotion}, an innovative generative framework designed for class-agnostic motion prediction that integrates essential motion priors by modeling them as distributions within a structured latent space. Specifically, our method captures structured motion priors using raster-vector representations and employs a variational autoencoder with distinct dynamic and static components to learn future motion distributions in the latent space. Experiments on the nuScenes dataset demonstrate that \textbf{PriorMotion} outperforms state-of-the-art methods across both traditional metrics and our newly proposed evaluation criteria. Notably, we achieve improvements of approximately 15.24\% in accuracy for fast-moving objects, an 3.59\% increase in generalization, a reduction of 0.0163 in motion stability, and a 31.52\% reduction in prediction errors in distant regions. Further validation on FMCW LiDAR sensors confirms the robustness of our approach.

arxiv情報

著者 Kangan Qian,Jinyu Miao,Xinyu Jiao,Ziang Luo,Zheng Fu,Yining Shi,Yunlong Wang,Kun Jiang,Diange Yang
発行日 2025-03-10 13:44:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.PF, cs.RO | PriorMotion: Generative Class-Agnostic Motion Prediction with Raster-Vector Motion Field Priors はコメントを受け付けていません

Unleashing the Potential of Large Language Models for Text-to-Image Generation through Autoregressive Representation Alignment

要約

Autore-Gonsision表現アライメント(ARRA)は、アーキテクチャの変更なしに自己回帰LLMSのグローバルコヒーレントテキストから画像の生成を解き放つ新しいトレーニングフレームワークです。
複雑なアーキテクチャの再設計を必要とする以前の作業とは異なり、ARRAは、グローバルな視覚アライメント損失とハイブリッドトークンを介して、外部の視覚的基礎モデルからの視覚的表現とLLM隠された状態を整列させます。
このトークンは、ローカルネクストトークンの予測とグローバルなセマンティック蒸留という二重の制約を実施し、LLMが元の自己回避パラダイムを保持しながら空間的および文脈的一貫性を暗黙的に学習できるようにします。
広範な実験は、ARRAのプラグアンドプレイの汎用性を検証します。
テキストジェネレーションのみのLLMSまたはランダムな初期化からのトレーニングの場合、ARRAは、ChameleonやLlamagenのような高度な自己回帰LLMのFIDを25.5%(Mimic-CXR)、8.8%(Deepeyenet)、および7.5%(Imagenet)減少させます。
ドメインの適応では、ARRAは一般的な視覚LLMを特殊なモデル(BiomedClipなど)に整列させ、医療イメージング(MIMIC-CXR)の直接微調整よりも18.6%のFID削減を達成します。
トレーニング目標の再設計は、建築革新だけでなく、クロスモーダルのグローバルコヒーレンスの課題を解決できることを実証することにより、ARRAは自己回帰モデルを進めるための補完的なパラダイムを提供します。
コードとモデルはリリースされ、自動回復画像生成を進めます。

要約(オリジナル)

We present Autoregressive Representation Alignment (ARRA), a new training framework that unlocks global-coherent text-to-image generation in autoregressive LLMs without architectural changes. Unlike prior work that requires complex architectural redesigns, ARRA aligns LLM hidden states with visual representations from external visual foundational models via a global visual alignment loss and a hybrid token, . This token enforces dual constraints: local next-token prediction and global semantic distillation, enabling LLMs to implicitly learn spatial and contextual coherence while retaining their original autoregressive paradigm. Extensive experiments validate ARRA’s plug-and-play versatility. When training from text-generation-only LLMs or random initialization, ARRA reduces FID by 25.5% (MIMIC-CXR), 8.8% (DeepEyeNet), and 7.5% (ImageNet) for advanced autoregressive LLMs like Chameleon and LlamaGen, all without framework modifications. For domain adaption, ARRA aligns general-purpose LLMs with specialized models (e.g., BioMedCLIP), achieving an 18.6% FID reduction over direct fine-tuning on medical imaging (MIMIC-CXR). By demonstrating that training objective redesign — not just architectural innovation — can resolve cross-modal global coherence challenges, ARRA offers a complementary paradigm for advancing autoregressive models. Code and models will be released to advance autoregressive image generation.

arxiv情報

著者 Xing Xie,Jiawei Liu,Ziyue Lin,Huijie Fan,Zhi Han,Yandong Tang,Liangqiong Qu
発行日 2025-03-10 13:49:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Unleashing the Potential of Large Language Models for Text-to-Image Generation through Autoregressive Representation Alignment はコメントを受け付けていません

Structure-guided Deep Multi-View Clustering

要約

Deep Multi-View Clusteringは、複数のビューから豊富な情報を利用して、クラスタリングパフォーマンスを向上させようとしています。
ただし、既存のクラスタリング方法のほとんどは、多くの場合、マルチビューの構造情報を完全に採掘することを怠り、マルチビューデータの分布を調査しないため、クラスタリングパフォーマンスが制限されます。
これらの制限に対処するために、構造誘導のディープマルチビュークラスタリングモデルを提案します。
具体的には、近隣の関係に基づいて、対応する損失関数と相まって、肯定的なサンプル選択戦略を導入します。
この戦略は、マルチビューの最近隣接グラフを構築して、正のサンプルペアを動的に再定義し、マルチビューデータ内のローカル構造情報のマイニングを可能にし、陽性サンプル選択の信頼性を高めます。
さらに、ガウス分布モデルを導入して、潜在的な構造情報を明らかにし、ビュー埋め込み間の矛盾を減らすための損失関数を導入します。
これらの2つの戦略は、さまざまな観点からマルチビューの構造情報とデータ分布を探求し、ビュー全体で一貫性を高め、クラスター内コンパクトさを高めます。
実験的評価は、当社の方法の有効性を示しており、最先端のマルチビュークラスタリングアプローチと比較して、複数のベンチマークデータセットでのクラスタリングパフォーマンスの大幅な改善を示しています。

要約(オリジナル)

Deep multi-view clustering seeks to utilize the abundant information from multiple views to improve clustering performance. However, most of the existing clustering methods often neglect to fully mine multi-view structural information and fail to explore the distribution of multi-view data, limiting clustering performance. To address these limitations, we propose a structure-guided deep multi-view clustering model. Specifically, we introduce a positive sample selection strategy based on neighborhood relationships, coupled with a corresponding loss function. This strategy constructs multi-view nearest neighbor graphs to dynamically redefine positive sample pairs, enabling the mining of local structural information within multi-view data and enhancing the reliability of positive sample selection. Additionally, we introduce a Gaussian distribution model to uncover latent structural information and introduce a loss function to reduce discrepancies between view embeddings. These two strategies explore multi-view structural information and data distribution from different perspectives, enhancing consistency across views and increasing intra-cluster compactness. Experimental evaluations demonstrate the efficacy of our method, showing significant improvements in clustering performance on multiple benchmark datasets compared to state-of-the-art multi-view clustering approaches.

arxiv情報

著者 Jinrong Cui,Xiaohuang Wu,Haitao Zhang,Chongjie Dong,Jie Wen
発行日 2025-03-10 13:49:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Structure-guided Deep Multi-View Clustering はコメントを受け付けていません