FullDiT: Multi-Task Video Generative Foundation Model with Full Attention

要約

現在のビデオ生成基盤モデルは、主にテキストからビデオへのタスクに焦点を当てており、細粒のビデオコンテンツの作成を制限しています。
アダプターベースのアプローチ(コントロールネットなど)は、最小限の微調整を伴う追加のコントロールを可能にしますが、独立した訓練されたアダプター間の分岐競合、計算コストの増加につながるパラメーター冗長性、および完全な微調整と比較して最適でないパフォーマンスなど、複数の条件を統合する際に課題に遭遇します。
これらの課題に対処するために、統一されたフルアテンションメカニズムを介して複数の条件をシームレスに統合するビデオ生成のための統一された基盤モデルであるFullditを紹介します。
マルチタスク条件を統一されたシーケンス表現に融合し、完全な自己触媒の長いコンテスト学習能力を活用して条件ダイナミクスをキャプチャすることにより、フルルディットはパラメーターのオーバーヘッドを削減し、状態の競合を回避し、スケーラビリティと緊急能力を示します。
さらに、マルチタスクビデオ生成評価のためにフルベンチを紹介します。
実験は、Fullditが最新の結果を達成し、複雑なマルチタスクビデオ生成における完全攻撃の有効性を強調することを示しています。

要約(オリジナル)

Current video generative foundation models primarily focus on text-to-video tasks, providing limited control for fine-grained video content creation. Although adapter-based approaches (e.g., ControlNet) enable additional controls with minimal fine-tuning, they encounter challenges when integrating multiple conditions, including: branch conflicts between independently trained adapters, parameter redundancy leading to increased computational cost, and suboptimal performance compared to full fine-tuning. To address these challenges, we introduce FullDiT, a unified foundation model for video generation that seamlessly integrates multiple conditions via unified full-attention mechanisms. By fusing multi-task conditions into a unified sequence representation and leveraging the long-context learning ability of full self-attention to capture condition dynamics, FullDiT reduces parameter overhead, avoids conditions conflict, and shows scalability and emergent ability. We further introduce FullBench for multi-task video generation evaluation. Experiments demonstrate that FullDiT achieves state-of-the-art results, highlighting the efficacy of full-attention in complex multi-task video generation.

arxiv情報

著者 Xuan Ju,Weicai Ye,Quande Liu,Qiulin Wang,Xintao Wang,Pengfei Wan,Di Zhang,Kun Gai,Qiang Xu
発行日 2025-03-25 17:59:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | FullDiT: Multi-Task Video Generative Foundation Model with Full Attention はコメントを受け付けていません

From My View to Yours: Ego-Augmented Learning in Large Vision Language Models for Understanding Exocentric Daily Living Activities

要約

大規模なビジョン言語モデル(LVLMS)は、ビデオ理解における印象的な能力を実証していますが、日常生活の活動(ADL)の採用は、きめ細かい相互作用と空間的関係を捉えることができないことによって制限されたままです。
これに対処するために、エゴセントリックビューの補完的な性質を活用して、LVLMのエキソセントリックADLビデオの理解を高めることを目指しています。
その結果、ego-augmentedexedexpexplessationsを学習するために、ego2exoの知識蒸留を提案します。
効果的ですが、このアプローチにはペアのエゴエキソービデオが必要であり、大規模に収集することは非現実的です。
これに対処するために、スケルトン誘導合成エゴ生成(SK-EGO)を提案します。これは、人間のスケルトンの動きを活用して、外心的なビデオから合成エゴビューを生成します。
合成データで訓練されたLVLMSの自我表現を強化するために、ドメインに依存しないブートストラップされたeGo2Exo戦略を開発し、実際のエゴエゾペアから合成エゴエキソペアに知識を効果的に転送し、ドメインの誤整理を緩和します。
私たちは、エゴの高等豊富なLVLMのEXO表現が、6つのADLベンチマークで包括的な評価を通じて実証されたエゴパースのキューを抽出することを成功裏に学習し、提案されているエゴインエキシートの認識MCQベンチマークを特異的に設計するために特異的に設計されたエクソセントリックなビデオからの評価を評価することで実証されていることがわかります。
コード、モデル、およびデータは、https://github.com/dominickrei/egoexo4adlでオープンソーリングされます。

要約(オリジナル)

Large Vision Language Models (LVLMs) have demonstrated impressive capabilities in video understanding, yet their adoption for Activities of Daily Living (ADL) remains limited by their inability to capture fine-grained interactions and spatial relationships. To address this, we aim to leverage the complementary nature of egocentric views to enhance LVLM’s understanding of exocentric ADL videos. Consequently, we propose ego2exo knowledge distillation to learn ego-augmented exp representations. While effective, this approach requires paired ego-exo videos, which are impractical to collect at scale. To address this, we propose Skeleton-guided Synthetic Ego Generation (SK-EGO), which leverages human skeleton motion to generate synthetic ego views from exocentric videos. To enhance the ego representation of LVLMs trained on synthetic data, we develop a domain-agnostic bootstrapped ego2exo strategy that effectively transfers knowledge from real ego-exo pairs to synthetic ego-exo pairs, while mitigating domain misalignment. We find that the exo representations of our ego-augmented LVLMs successfully learn to extract ego-perspective cues, demonstrated through comprehensive evaluation on six ADL benchmarks and our proposed Ego-in-Exo PerceptionMCQ benchmark designed specifically to assess egocentric understanding from exocentric videos. Code, models, and data will be open-sourced at https://github.com/dominickrei/EgoExo4ADL.

arxiv情報

著者 Dominick Reilly,Manish Kumar Govind,Le Xue,Srijan Das
発行日 2025-03-25 17:59:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | From My View to Yours: Ego-Augmented Learning in Large Vision Language Models for Understanding Exocentric Daily Living Activities はコメントを受け付けていません

CoLLM: A Large Language Model for Composed Image Retrieval

要約

構成された画像検索(CIR)は、マルチモーダルクエリに基づいて画像を取得することを目的とする複雑なタスクです。
典型的なトレーニングデータは、参照画像を含むトリプレット、望ましい変更のテキストの説明、および獲得に時間がかかり、時間がかかるターゲット画像で構成されています。
CIRデータセットの希少性により、合成トリプレットを利用したり、遍在するWebがクロールした画像キャプションペアを使用してビジョン言語モデル(VLMS)を活用したりするゼロショットアプローチにつながりました。
ただし、これらの方法には大きな制限があります。合成トリプレットは、限られたスケール、多様性の欠如、不自然な修正テキストに苦しんでいますが、画像キャプションのペアは、トリプレットデータがないためにマルチモーダルクエリの学習を埋め込むジョイントを妨害します。
さらに、既存のアプローチは、ビジョンと言語のモダリティの洗練された融合と理解を要求する複雑で微妙な修正テキストと格闘しています。
これらの制限に効果的に対処するワンストップフレームワークであるCollmを提示します。
私たちのアプローチは、画像キャプションのペアからフライでトリプレットを生成し、手動注釈なしで監視されたトレーニングを可能にします。
大規模な言語モデル(LLM)を活用して、参照画像と変更テキストの共同埋め込みを生成し、より深いマルチモーダル融合を促進します。
さらに、3.4mのサンプルで構成される大規模なデータセットであるマルチテキストCIR(MTCIR)を導入し、既存のCIRベンチマーク(CIRRおよびファッションIQ)を改良して評価の信頼性を高めます。
実験結果は、COLLMが複数のCIRベンチマークと設定にわたって最先端のパフォーマンスを達成することを示しています。
MTCIRは競争力のある結果をもたらし、パフォーマンスを最大15%改善します。
洗練されたベンチマークは、CIRモデルのより信頼性の高い評価メトリックを提供し、この重要な分野の進歩に貢献しています。

要約(オリジナル)

Composed Image Retrieval (CIR) is a complex task that aims to retrieve images based on a multimodal query. Typical training data consists of triplets containing a reference image, a textual description of desired modifications, and the target image, which are expensive and time-consuming to acquire. The scarcity of CIR datasets has led to zero-shot approaches utilizing synthetic triplets or leveraging vision-language models (VLMs) with ubiquitous web-crawled image-caption pairs. However, these methods have significant limitations: synthetic triplets suffer from limited scale, lack of diversity, and unnatural modification text, while image-caption pairs hinder joint embedding learning of the multimodal query due to the absence of triplet data. Moreover, existing approaches struggle with complex and nuanced modification texts that demand sophisticated fusion and understanding of vision and language modalities. We present CoLLM, a one-stop framework that effectively addresses these limitations. Our approach generates triplets on-the-fly from image-caption pairs, enabling supervised training without manual annotation. We leverage Large Language Models (LLMs) to generate joint embeddings of reference images and modification texts, facilitating deeper multimodal fusion. Additionally, we introduce Multi-Text CIR (MTCIR), a large-scale dataset comprising 3.4M samples, and refine existing CIR benchmarks (CIRR and Fashion-IQ) to enhance evaluation reliability. Experimental results demonstrate that CoLLM achieves state-of-the-art performance across multiple CIR benchmarks and settings. MTCIR yields competitive results, with up to 15% performance improvement. Our refined benchmarks provide more reliable evaluation metrics for CIR models, contributing to the advancement of this important field.

arxiv情報

著者 Chuong Huynh,Jinyu Yang,Ashish Tawari,Mubarak Shah,Son Tran,Raffay Hamid,Trishul Chilimbi,Abhinav Shrivastava
発行日 2025-03-25 17:59:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.IR | CoLLM: A Large Language Model for Composed Image Retrieval はコメントを受け付けていません

SuperFlow++: Enhanced Spatiotemporal Consistency for Cross-Modal Data Pretraining

要約

LIDARの表現学習は、費用と労働集約的な人間の注釈への依存を減らすための有望なアプローチとして浮上しています。
既存の方法は、主にLidarセンサーとカメラセンサーの間の空間的アライメントに焦点を当てていますが、運転シナリオの動きとシーンの連続性をキャプチャするために重要な時間的ダイナミクスを見落としていることがよくあります。
この制限に対処するために、Superflow ++を提案します。これは、連続したLidar-Cameraペアを使用して、前後のタスクと下流の両方のタスクの空間的キューを統合する新しいフレームワークです。
Superflow ++は、4つの重要なコンポーネントを導入します。(1)カメラビュー全体でセマンティック情報を統合するビューの一貫性アラインメントモジュール、(2)さまざまな点雲の密度全体で特徴の堅牢性を高めるための密な球形とスパルの一貫性の正規化メカニズム、(3)aの一時的な票を補うための一時的な票を補うための一時的な関係を促進するフローベースの造影学習アプローチ
予測の一貫性。
11の不均一なLIDARデータセットでの広範な評価は、スーパーフロー++が多様なタスクと運転条件で最新の方法を上回ることを示しています。
さらに、事前トレーニング中に2Dバックボーンと3Dバックボーンの両方をスケーリングすることにより、スケーラブルな3Dファンデーションモデルの開発に関するより深い洞察を提供する緊急特性を明らかにします。
強力な一般化可能性と計算効率により、Superflow ++は、自律運転におけるデータ効率の高いLIDARベースの認識のための新しいベンチマークを確立します。
このコードは、https://github.com/xiangxu-0103/superflowで公開されています

要約(オリジナル)

LiDAR representation learning has emerged as a promising approach to reducing reliance on costly and labor-intensive human annotations. While existing methods primarily focus on spatial alignment between LiDAR and camera sensors, they often overlook the temporal dynamics critical for capturing motion and scene continuity in driving scenarios. To address this limitation, we propose SuperFlow++, a novel framework that integrates spatiotemporal cues in both pretraining and downstream tasks using consecutive LiDAR-camera pairs. SuperFlow++ introduces four key components: (1) a view consistency alignment module to unify semantic information across camera views, (2) a dense-to-sparse consistency regularization mechanism to enhance feature robustness across varying point cloud densities, (3) a flow-based contrastive learning approach that models temporal relationships for improved scene understanding, and (4) a temporal voting strategy that propagates semantic information across LiDAR scans to improve prediction consistency. Extensive evaluations on 11 heterogeneous LiDAR datasets demonstrate that SuperFlow++ outperforms state-of-the-art methods across diverse tasks and driving conditions. Furthermore, by scaling both 2D and 3D backbones during pretraining, we uncover emergent properties that provide deeper insights into developing scalable 3D foundation models. With strong generalizability and computational efficiency, SuperFlow++ establishes a new benchmark for data-efficient LiDAR-based perception in autonomous driving. The code is publicly available at https://github.com/Xiangxu-0103/SuperFlow

arxiv情報

著者 Xiang Xu,Lingdong Kong,Hui Shuai,Wenwei Zhang,Liang Pan,Kai Chen,Ziwei Liu,Qingshan Liu
発行日 2025-03-25 17:59:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, cs.RO | SuperFlow++: Enhanced Spatiotemporal Consistency for Cross-Modal Data Pretraining はコメントを受け付けていません

Learning 3D Object Spatial Relationships from Pre-trained 2D Diffusion Models

要約

事前に訓練された2D拡散モデルから合成的に生成された3Dサンプルを活用することにより、オブジェクトとオブジェクトの空間関係(OOR)と呼ばれるオブジェクトペア間の3D空間関係を学習する方法を提示します。
2D拡散モデルによって合成された画像は、本質的にもっともらしく現実的なOORキューをキャプチャし、3Dデータセットを収集して、さまざまな無制限のオブジェクトカテゴリのOORを学習するための効率的な方法を可能にすると仮定します。
私たちのアプローチは、もっともらしいOORキューをキャプチャする多様な画像を合成することから始まります。これを3Dサンプルに向上させます。
オブジェクトペアのもっともらしい3Dサンプルの多様なコレクションを活用して、スコアベースのOOR拡散モデルをトレーニングして、相対的な空間的関係の分布を学習します。
さらに、ペアワイズ関係全体で一貫性を強制し、オブジェクトの衝突を防止することにより、ペアワイズOORをマルチオブジェクトOORに拡張します。
広範な実験は、OOR拡散モデルを使用した実際の3Dシーンアレンジメントタスクへの適用性とともに、さまざまなオブジェクトとオブジェクトの空間的関係にわたる方法の堅牢性を示しています。

要約(オリジナル)

We present a method for learning 3D spatial relationships between object pairs, referred to as object-object spatial relationships (OOR), by leveraging synthetically generated 3D samples from pre-trained 2D diffusion models. We hypothesize that images synthesized by 2D diffusion models inherently capture plausible and realistic OOR cues, enabling efficient ways to collect a 3D dataset to learn OOR for various unbounded object categories. Our approach begins by synthesizing diverse images that capture plausible OOR cues, which we then uplift into 3D samples. Leveraging our diverse collection of plausible 3D samples for the object pairs, we train a score-based OOR diffusion model to learn the distribution of their relative spatial relationships. Additionally, we extend our pairwise OOR to multi-object OOR by enforcing consistency across pairwise relations and preventing object collisions. Extensive experiments demonstrate the robustness of our method across various object-object spatial relationships, along with its applicability to real-world 3D scene arrangement tasks using the OOR diffusion model.

arxiv情報

著者 Sangwon Beak,Hyeonwoo Kim,Hanbyul Joo
発行日 2025-03-25 17:59:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Learning 3D Object Spatial Relationships from Pre-trained 2D Diffusion Models はコメントを受け付けていません

PartRM: Modeling Part-Level Dynamics with Large Cross-State Reconstruction Model

要約

現在の観察と行動から将来の状態を予測する世界モデルに関心が高まるにつれて、部分レベルのダイナミクスの正確なモデリングは、さまざまなアプリケーションにますます関連するようになりました。
Puppet-Masterなどの既存のアプローチは、2Dビデオ表現の制限と遅い処理時間のために、実際の使用を実用的ではない、微調整する大規模な訓練前のビデオ拡散モデルに依存しています。
これらの課題を克服するために、静的オブジェクトのマルチビュー画像からの外観、ジオメトリ、および部分レベルの動きを同時にモデル化する新しい4D再構成フレームワークであるPartrmを提示します。
Partrmは、大規模な3Dガウス再構成モデ​​ルに基づいており、静的オブジェクトの外観とジオメトリに関する広範な知識を活用しています。
4Dのデータ不足に対処するために、PARTDRAG-4Dデータセットを導入し、20,000を超える州でパートレベルのダイナミクスのマルチビュー観測を提供します。
さまざまな粒度でダイナミクスをキャプチャするマルチスケールのドラッグ埋め込みモジュールで、相互作用条件のモデルの理解を強化します。
微調整中の壊滅的な忘却を防ぐために、動きと外観の学習に順番に焦点を当てた2段階のトレーニングプロセスを実装します。
実験結果は、Partrmが部分レベルのモーション学習に新しい最先端の最先端を確立し、ロボット工学の操作タスクに適用できることを示しています。
私たちのコード、データ、モデルは、将来の研究を促進するために公開されています。

要約(オリジナル)

As interest grows in world models that predict future states from current observations and actions, accurately modeling part-level dynamics has become increasingly relevant for various applications. Existing approaches, such as Puppet-Master, rely on fine-tuning large-scale pre-trained video diffusion models, which are impractical for real-world use due to the limitations of 2D video representation and slow processing times. To overcome these challenges, we present PartRM, a novel 4D reconstruction framework that simultaneously models appearance, geometry, and part-level motion from multi-view images of a static object. PartRM builds upon large 3D Gaussian reconstruction models, leveraging their extensive knowledge of appearance and geometry in static objects. To address data scarcity in 4D, we introduce the PartDrag-4D dataset, providing multi-view observations of part-level dynamics across over 20,000 states. We enhance the model’s understanding of interaction conditions with a multi-scale drag embedding module that captures dynamics at varying granularities. To prevent catastrophic forgetting during fine-tuning, we implement a two-stage training process that focuses sequentially on motion and appearance learning. Experimental results show that PartRM establishes a new state-of-the-art in part-level motion learning and can be applied in manipulation tasks in robotics. Our code, data, and models are publicly available to facilitate future research.

arxiv情報

著者 Mingju Gao,Yike Pan,Huan-ang Gao,Zongzheng Zhang,Wenyi Li,Hao Dong,Hao Tang,Li Yi,Hao Zhao
発行日 2025-03-25 17:59:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | PartRM: Modeling Part-Level Dynamics with Large Cross-State Reconstruction Model はコメントを受け付けていません

EventFly: Event Camera Perception from Ground to the Sky

要約

イベントベースの密集した知覚におけるクロスプラットフォーム適応は、車両、ドローン、四足類などの多様な設定にイベントカメラを展開するために重要です。
この作業では、イベントカメラの知覚における堅牢なクロスプラットフォーム適応のフレームワークであるEventFlyを紹介します。
私たちのアプローチは、3つの重要なコンポーネントで構成されています。i)イベントアクティベーションPriot(EAP)は、ターゲットドメインの高活性化領域を識別して予測エントロピーを最小限に抑え、自信を持ってドメイン適応予測を促進します。
ii)EventBlend、EAP駆動型の類似性と密度マップに基づいて、ソースとターゲットのイベントボクセルグリッドを統合するデータミックス戦略で、特徴アライメントを強化します。
およびiii)イベントマッチ、ソース、ターゲット、およびブレンドドメインから機能を整列させるデュアルディスクリミネーター手法で、ドメインに不変の学習を改善します。
クロスプラットフォームの適応能力を総合的に評価するために、車両、ドローン、および四足動物を介して多様なサンプルを備えた大規模なベンチマークであるExpoを紹介します。
広範な実験は当社の有効性を検証し、一般的な適応方法よりも大きな利益を示しています。
この作品が、多様で複雑な環境で、より適応的で高性能なイベントの認識への道を開くことができることを願っています。

要約(オリジナル)

Cross-platform adaptation in event-based dense perception is crucial for deploying event cameras across diverse settings, such as vehicles, drones, and quadrupeds, each with unique motion dynamics, viewpoints, and class distributions. In this work, we introduce EventFly, a framework for robust cross-platform adaptation in event camera perception. Our approach comprises three key components: i) Event Activation Prior (EAP), which identifies high-activation regions in the target domain to minimize prediction entropy, fostering confident, domain-adaptive predictions; ii) EventBlend, a data-mixing strategy that integrates source and target event voxel grids based on EAP-driven similarity and density maps, enhancing feature alignment; and iii) EventMatch, a dual-discriminator technique that aligns features from source, target, and blended domains for better domain-invariant learning. To holistically assess cross-platform adaptation abilities, we introduce EXPo, a large-scale benchmark with diverse samples across vehicle, drone, and quadruped platforms. Extensive experiments validate our effectiveness, demonstrating substantial gains over popular adaptation methods. We hope this work can pave the way for more adaptive, high-performing event perception across diverse and complex environments.

arxiv情報

著者 Lingdong Kong,Dongyue Lu,Xiang Xu,Lai Xing Ng,Wei Tsang Ooi,Benoit R. Cottereau
発行日 2025-03-25 17:59:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | EventFly: Event Camera Perception from Ground to the Sky はコメントを受け付けていません

Structuring Scientific Innovation: A Framework for Modeling and Discovering Impactful Knowledge Combinations

要約

大規模な言語モデルの出現は、科学的知識の構造化された探求のための新しい可能性を提供します。
科学的発見を孤立したアイデアやコンテンツと見なすのではなく、破壊的な洞察を形作る際の方法の組み合わせの役割を強調する構造化されたアプローチを提案します。
具体的には、知識単位、特に方法論的設計に結び付けられたものがどのようにモデル化され、再結合されて研究のブレークスルーをもたらすかを調査します。
提案されたフレームワークは、2つの重要な課題に対処しています。
まず、問題駆動型のコンテキスト内で歴史的に破壊的な方法の組み合わせの際立った特徴を特定するための対照的な学習ベースのメカニズムを紹介します。
第二に、LLMの考え方の能力を活用して新しい問題の声明の有望な知識の組み合わせを特定する推論ガイド付きモンテカルロ検索アルゴリズムを提案します。複数のドメインにわたる包括的な研究は、革新の構造的ダイナミクスをモデル化し、高虐殺の可能性との組み合わせを継続的に強調することができることを示しています。
この研究は、構造化された推論と歴史的データモデリングに基づいた計算誘導科学的観念のための新しいパスを提供します。

要約(オリジナル)

The emergence of large language models offers new possibilities for structured exploration of scientific knowledge. Rather than viewing scientific discovery as isolated ideas or content, we propose a structured approach that emphasizes the role of method combinations in shaping disruptive insights. Specifically, we investigate how knowledge unit–especially those tied to methodological design–can be modeled and recombined to yield research breakthroughs. Our proposed framework addresses two key challenges. First, we introduce a contrastive learning-based mechanism to identify distinguishing features of historically disruptive method combinations within problem-driven contexts. Second, we propose a reasoning-guided Monte Carlo search algorithm that leverages the chain-of-thought capability of LLMs to identify promising knowledge recombinations for new problem statements.Empirical studies across multiple domains show that the framework is capable of modeling the structural dynamics of innovation and successfully highlights combinations with high disruptive potential. This research provides a new path for computationally guided scientific ideation grounded in structured reasoning and historical data modeling.

arxiv情報

著者 Junlan Chen,Kexin Zhang,Daifeng Li,Yangyang Feng,Yuxuan Zhang,Bowen Deng
発行日 2025-03-25 14:21:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI | Structuring Scientific Innovation: A Framework for Modeling and Discovering Impactful Knowledge Combinations はコメントを受け付けていません

MC-LLaVA: Multi-Concept Personalized Vision-Language Model

要約

現在のビジョン言語モデル(VLM)は、視覚的な質問応答など、さまざまなタスク全体で例外的な能力を示しています。
ユーザーエクスペリエンスを向上させるために、最近の研究では、ユーザーが提供する概念を理解するためにVLMパーソナライズを調査しています。
ただし、主に単一の概念パーソナライズに焦点を当て、複数の概念の存在と相互作用を無視して、実際の適用性を制限します。
このペーパーでは、最初のマルチコンセプトパーソナライゼーションパラダイムであるMC-llavaを提案します。
具体的には、MC-Lolavaはマルチコンセプト指導チューニング戦略を採用しており、単一のトレーニングステップで複数の概念を効果的に統合しています。
共同トレーニングに関連するコストを削減するために、視覚トークン情報を使用してコンセプトトークンを初期化するパーソナライズされたテキストプロンプトを提案します。
さらに、推論中にパーソナライズされた視覚プロンプトを導入し、認識と接地機能を強化するための位置信頼マップを集約します。
マルチコンセプトパーソナライゼーションの研究を進めるために、さらに高品質の命令チューニングデータセットを提供します。
映画から複数の文字やオブジェクトを使用して画像を慎重に収集し、優れた多様性を特徴とするマルチコンセプトシナリオ用の質問回答サンプルを手動で生成します。
包括的な定性的および定量的実験は、MC-Lovaが印象的なマルチコンセプトパーソナライズされた応答を達成できることを示しており、VLMSがより優れたユーザー固有のアシスタントになる方法を開催しています。
コードとデータセットは、https://github.com/arctanxarc/mc-llava}で公開されます。

要約(オリジナル)

Current vision-language models (VLMs) show exceptional abilities across diverse tasks, such as visual question answering. To enhance user experience, recent studies investigate VLM personalization to understand user-provided concepts. However, they mainly focus on single-concept personalization, neglecting the existence and interplay of multiple concepts, which limits real-world applicability. This paper proposes the first multi-concept personalization paradigm, MC-LLaVA. Specifically, MC-LLaVA employs a multi-concept instruction tuning strategy, effectively integrating multiple concepts in a single training step. To reduce the costs related to joint training, we propose a personalized textual prompt that uses visual token information to initialize concept tokens. Additionally, we introduce a personalized visual prompt during inference, aggregating location confidence maps for enhanced recognition and grounding capabilities. To advance multi-concept personalization research, we further contribute a high-quality instruction tuning dataset. We carefully collect images with multiple characters and objects from movies and manually generate question-answer samples for multi-concept scenarios, featuring superior diversity. Comprehensive qualitative and quantitative experiments demonstrate that MC-LLaVA can achieve impressive multi-concept personalized responses, paving the way for VLMs to become better user-specific assistants. The code and dataset will be publicly available at https://github.com/arctanxarc/MC-LLaVA}.

arxiv情報

著者 Ruichuan An,Sihan Yang,Ming Lu,Renrui Zhang,Kai Zeng,Yulin Luo,Jiajun Cao,Hao Liang,Ying Chen,Qi She,Shanghang Zhang,Wentao Zhang
発行日 2025-03-25 13:50:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | MC-LLaVA: Multi-Concept Personalized Vision-Language Model はコメントを受け付けていません

Aether: Geometric-Aware Unified World Modeling

要約

幾何学的再構築と生成モデリングの統合は、人間のような空間的推論が可能なAIシステムを開発する上で重要な課題のままです。
このペーパーでは、3つのコア機能を共同で最適化することにより、世界モデルでジオメトリを意識する推論を可能にする統一されたフレームワークであるAotherを提案します。
タスクインターレーブ機能学習を通じて、Aetherは再構築、予測、および計画目標を通じて相乗的な知識共有を実現します。
ビデオ生成モデルに基づいて、私たちのフレームワークは、トレーニング中に実際のデータを観察しないにもかかわらず、前例のない合成からリアルへの一般化を示しています。
さらに、私たちのアプローチは、本質的な幾何学的モデリングのおかげで、アクションフォローと再構成の両方のタスクでゼロショットの一般化を達成します。
驚くべきことに、実際のデータがなくても、その再構成パフォーマンスは、ドメイン固有のモデルのパフォーマンスと同等であるか、さらに優れています。
さらに、Aetherはカメラの軌跡を形状に基づいたアクションスペースとして採用し、効果的なアクションコンディショニングされた予測と視覚計画を可能にします。
私たちの仕事が、身体的に季節限定の世界モデリングとそのアプリケーションで新しいフロンティアを探索するようコミュニティに促すことを願っています。

要約(オリジナル)

The integration of geometric reconstruction and generative modeling remains a critical challenge in developing AI systems capable of human-like spatial reasoning. This paper proposes Aether, a unified framework that enables geometry-aware reasoning in world models by jointly optimizing three core capabilities: (1) 4D dynamic reconstruction, (2) action-conditioned video prediction, and (3) goal-conditioned visual planning. Through task-interleaved feature learning, Aether achieves synergistic knowledge sharing across reconstruction, prediction, and planning objectives. Building upon video generation models, our framework demonstrates unprecedented synthetic-to-real generalization despite never observing real-world data during training. Furthermore, our approach achieves zero-shot generalization in both action following and reconstruction tasks, thanks to its intrinsic geometric modeling. Remarkably, even without real-world data, its reconstruction performance is comparable with or even better than that of domain-specific models. Additionally, Aether employs camera trajectories as geometry-informed action spaces, enabling effective action-conditioned prediction and visual planning. We hope our work inspires the community to explore new frontiers in physically-reasonable world modeling and its applications.

arxiv情報

著者 Aether Team,Haoyi Zhu,Yifan Wang,Jianjun Zhou,Wenzheng Chang,Yang Zhou,Zizun Li,Junyi Chen,Chunhua Shen,Jiangmiao Pang,Tong He
発行日 2025-03-25 15:31:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG, cs.RO | Aether: Geometric-Aware Unified World Modeling はコメントを受け付けていません