PoGDiff: Product-of-Gaussians Diffusion Models for Imbalanced Text-to-Image Generation

要約

拡散モデルは、近年大きな進歩を遂げています。
ただし、不均衡なデータセットで訓練または微調整された場合、パフォーマンスはしばしば悪化します。
この劣化は、主に画像テキストペアにおける多数派と少数派データの不均衡な表現によるものです。
この論文では、この課題に対処するために、Pogdiffと呼ばれる一般的な微調整アプローチを提案します。
Pogdiffは、予測された分布と根真実の分布との間のKLの発散を直接最小化するのではなく、グラウンドトゥルース分布をガウス(POG)の産物に置き換えます。
隣接するテキスト埋め込み。
実際のデータセットでの実験は、我々の方法が拡散モデルの不均衡の問題に効果的に対処し、生成の精度と品質の両方を改善することを示しています。

要約(オリジナル)

Diffusion models have made significant advancements in recent years. However, their performance often deteriorates when trained or fine-tuned on imbalanced datasets. This degradation is largely due to the disproportionate representation of majority and minority data in image-text pairs. In this paper, we propose a general fine-tuning approach, dubbed PoGDiff, to address this challenge. Rather than directly minimizing the KL divergence between the predicted and ground-truth distributions, PoGDiff replaces the ground-truth distribution with a Product of Gaussians (PoG), which is constructed by combining the original ground-truth targets with the predicted distribution conditioned on a neighboring text embedding. Experiments on real-world datasets demonstrate that our method effectively addresses the imbalance problem in diffusion models, improving both generation accuracy and quality.

arxiv情報

著者 Ziyan Wang,Sizhe Wei,Xiaoming Huo,Hao Wang
発行日 2025-02-19 16:18:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG, stat.ML | PoGDiff: Product-of-Gaussians Diffusion Models for Imbalanced Text-to-Image Generation はコメントを受け付けていません

MagicGeo: Training-Free Text-Guided Geometric Diagram Generation

要約

幾何学的図は、数学的および科学的概念を伝える上で重要ですが、従来の図の生成方法は、多くの場合、マニュアルでリソース集約的です。
テキストからイメージの生成により、フォトリアリスティックな画像が進んでいますが、正確な幾何学的図を作成することは、正確な空間的関係の必要性と幾何学固有のデータセットの希少性のために依然として課題です。
このペーパーでは、テキストの説明から幾何学的図を生成するためのトレーニングフリーのフレームワークであるMagicGeoを紹介します。
MagicGeoは、図の生成プロセスを座標最適化問題として定式化し、正式な言語ソルバーを介した幾何学的正確性を確保し、座標を認識した生成を採用します。
フレームワークは、大規模な言語モデルの強力な言語翻訳能力を活用し、正式な数学的解決により幾何学的な正確性が保証されます。
さらに、220の幾何学的図の説明のベンチマークデータセットであるMagicGeobenchを紹介し、MagicGeoが定性的評価と定量的評価の両方で現在の方法を上回ることを実証します。
この作業は、自動化された図生成のためのスケーラブルで正確なソリューションを提供し、教育および学術アプリケーションに大きな意味を持ちます。

要約(オリジナル)

Geometric diagrams are critical in conveying mathematical and scientific concepts, yet traditional diagram generation methods are often manual and resource-intensive. While text-to-image generation has made strides in photorealistic imagery, creating accurate geometric diagrams remains a challenge due to the need for precise spatial relationships and the scarcity of geometry-specific datasets. This paper presents MagicGeo, a training-free framework for generating geometric diagrams from textual descriptions. MagicGeo formulates the diagram generation process as a coordinate optimization problem, ensuring geometric correctness through a formal language solver, and then employs coordinate-aware generation. The framework leverages the strong language translation capability of large language models, while formal mathematical solving ensures geometric correctness. We further introduce MagicGeoBench, a benchmark dataset of 220 geometric diagram descriptions, and demonstrate that MagicGeo outperforms current methods in both qualitative and quantitative evaluations. This work provides a scalable, accurate solution for automated diagram generation, with significant implications for educational and academic applications.

arxiv情報

著者 Junxiao Wang,Ting Zhang,Heng Yu,Jingdong Wang,Hua Huang
発行日 2025-02-19 16:20:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | MagicGeo: Training-Free Text-Guided Geometric Diagram Generation はコメントを受け付けていません

Regularization by Neural Style Transfer for MRI Field-Transfer Reconstruction with Limited Data

要約

MRI再構築における最近の進歩は、深い学習ベースのモデルを通じて顕著な成功を示しています。
ただし、ほとんどの既存の方法は、大規模でタスク固有のデータセットに大きく依存しているため、データ制限設定の再構築は重要でありながら採用されていない課題になります。
除去(赤)による正則化(赤)は、除去者を再建の前提条件として活用している間、神経スタイルの転送(NST)エンジンを型磁場転移の再構築に統合する新しいフレームワークであるニューラルスタイル転送(RNST)による正則化を提案します。
RNSTは、ペアのトレーニングデータを必要とせずに低フィールド入力から高フィールド品質の画像を生成し、限られたデータの設定に対処するためにスタイルのプライアーを活用します。
私たちの実験結果は、多様な解剖学的平面(軸、冠状、矢状)およびノイズレベルで高品質の画像を再構築するRNSTの能力を示しており、低いフィールドの参照と比較して優れた明瞭さ、コントラスト、および構造的忠実度を達成します。
重要なことに、RNSTは、スタイルとコンテンツの画像に正確なアラインメントがなく、正確な参照マッチが利用できない臨床環境での適用性を拡大しても、堅牢性を維持します。
NSTと除去の強度を組み合わせることにより、RNSTはMRIフィールド移動再構成のためのスケーラブルでデータ効率の高いソリューションを提供し、リソース制限設定の重要な可能性を示しています。

要約(オリジナル)

Recent advances in MRI reconstruction have demonstrated remarkable success through deep learning-based models. However, most existing methods rely heavily on large-scale, task-specific datasets, making reconstruction in data-limited settings a critical yet underexplored challenge. While regularization by denoising (RED) leverages denoisers as priors for reconstruction, we propose Regularization by Neural Style Transfer (RNST), a novel framework that integrates a neural style transfer (NST) engine with a denoiser to enable magnetic field-transfer reconstruction. RNST generates high-field-quality images from low-field inputs without requiring paired training data, leveraging style priors to address limited-data settings. Our experiment results demonstrate RNST’s ability to reconstruct high-quality images across diverse anatomical planes (axial, coronal, sagittal) and noise levels, achieving superior clarity, contrast, and structural fidelity compared to lower-field references. Crucially, RNST maintains robustness even when style and content images lack exact alignment, broadening its applicability in clinical environments where precise reference matches are unavailable. By combining the strengths of NST and denoising, RNST offers a scalable, data-efficient solution for MRI field-transfer reconstruction, demonstrating significant potential for resource-limited settings.

arxiv情報

著者 Guoyao Shen,Yancheng Zhu,Mengyu Li,Ryan McNaughton,Hernan Jara,Sean B. Andersson,Chad W. Farris,Stephan Anderson,Xin Zhang
発行日 2025-02-19 16:24:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, physics.med-ph | Regularization by Neural Style Transfer for MRI Field-Transfer Reconstruction with Limited Data はコメントを受け付けていません

MSVCOD:A Large-Scale Multi-Scene Dataset for Video Camouflage Object Detection

要約

ビデオカモフラージュオブジェクト検出(VCOD)は、ビデオのバックグラウンド内でシームレスに隠されたオブジェクトを識別することを目的とする挑戦的なタスクです。
ビデオの動的特性により、モーションキューまたはさまざまな視点を介したカモフラージュオブジェクトの検出が可能になります。
以前のVCODデータセットには主に動物のオブジェクトが含まれており、研究の範囲を野生生物シナリオに制限しています。
ただし、VCODの応用は野生生物を超えて拡張されており、セキュリティ、芸術、および医療分野に大きな影響を与えています。
この問題に対処すると、新しい大規模なマルチドメインVCODデータセットMSVCODを作成します。
高品質の注釈を達成するために、注釈の精度を維持しながらコストを削減する半自動反復注釈パイプラインを設計します。
私たちのMSVCODは、これまでで最大のVCODデータセットであり、人間、動物、医療、車両のオブジェクトを含む複数のオブジェクトカテゴリを初めて導入し、さまざまな環境での背景の多様性を拡大します。
この拡張されたスコープは、カモフラージュオブジェクト検出におけるVCODタスクの実際的な適用性を高めます。
このデータセットに加えて、追加のモーション機能融合モジュールなしで機能抽出と情報融合の両方を実行するワンスチームビデオカモフラージュオブジェクト検出モデルを紹介します。
私たちのフレームワークは、既存のVCOD動物データセットと提案されたMSVCODで最先端の結果を達成します。
データセットとコードは公開されます。

要約(オリジナル)

Video Camouflaged Object Detection (VCOD) is a challenging task which aims to identify objects that seamlessly concealed within the background in videos. The dynamic properties of video enable detection of camouflaged objects through motion cues or varied perspectives. Previous VCOD datasets primarily contain animal objects, limiting the scope of research to wildlife scenarios. However, the applications of VCOD extend beyond wildlife and have significant implications in security, art, and medical fields. Addressing this problem, we construct a new large-scale multi-domain VCOD dataset MSVCOD. To achieve high-quality annotations, we design a semi-automatic iterative annotation pipeline that reduces costs while maintaining annotation accuracy. Our MSVCOD is the largest VCOD dataset to date, introducing multiple object categories including human, animal, medical, and vehicle objects for the first time, while also expanding background diversity across various environments. This expanded scope increases the practical applicability of the VCOD task in camouflaged object detection. Alongside this dataset, we introduce a one-steam video camouflage object detection model that performs both feature extraction and information fusion without additional motion feature fusion modules. Our framework achieves state-of-the-art results on the existing VCOD animal dataset and the proposed MSVCOD. The dataset and code will be made publicly available.

arxiv情報

著者 Shuyong Gao,Yu’ang Feng,Qishan Wang,Lingyi Hong,Xinyu Zhou,Liu Fei,Yan Wang,Wenqiang Zhang
発行日 2025-02-19 16:27:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | MSVCOD:A Large-Scale Multi-Scene Dataset for Video Camouflage Object Detection はコメントを受け付けていません

Multimodal Emotion Recognition using Audio-Video Transformer Fusion with Cross Attention

要約

感情を理解することは、人間のコミュニケーションの基本的な側面です。
オーディオとビデオの信号を統合することで、音声や表情などの単一のデータソースに依存する従来の方法と比較して、感情状態をより包括的に理解することができます。
その可能性にもかかわらず、マルチモーダル感情認識は、特に同期、特徴抽出、多様なデータソースの融合において、重大な課題に直面しています。
これらの問題に対処するために、このホワイトペーパーでは、Cross Atterness(AVT-CA)を備えたAudio-Video Transformer Fusionという名前の新しい変圧器ベースのモデルを紹介します。
AVT-CAモデルは、トランスフュージョンアプローチを採用して、オーディオ入力とビデオ入力の両方から相互リンクされた機能を効果的にキャプチャして同期し、同期の問題を解決します。
さらに、AVT-CA内の交差注意メカニズムは、重要な特徴を選択的に抽出し、強調しながら、無関係な機能を両方のモダリティから破棄し、特徴の抽出と融合の課題に対処します。
CMU-Mosei、Ravdess、およびCREMA-Dデータセットで実施された広範な実験分析は、提案されたモデルの有効性を示しています。
結果は、実用的なアプリケーションのための正確で信頼性の高いマルチモーダル感情認識システムの開発におけるAVT-CAの重要性を強調しています。

要約(オリジナル)

Understanding emotions is a fundamental aspect of human communication. Integrating audio and video signals offers a more comprehensive understanding of emotional states compared to traditional methods that rely on a single data source, such as speech or facial expressions. Despite its potential, multimodal emotion recognition faces significant challenges, particularly in synchronization, feature extraction, and fusion of diverse data sources. To address these issues, this paper introduces a novel transformer-based model named Audio-Video Transformer Fusion with Cross Attention (AVT-CA). The AVT-CA model employs a transformer fusion approach to effectively capture and synchronize interlinked features from both audio and video inputs, thereby resolving synchronization problems. Additionally, the Cross Attention mechanism within AVT-CA selectively extracts and emphasizes critical features while discarding irrelevant ones from both modalities, addressing feature extraction and fusion challenges. Extensive experimental analysis conducted on the CMU-MOSEI, RAVDESS and CREMA-D datasets demonstrates the efficacy of the proposed model. The results underscore the importance of AVT-CA in developing precise and reliable multimodal emotion recognition systems for practical applications.

arxiv情報

著者 Joe Dhanith P R,Shravan Venkatraman,Vigya Sharma,Santhosh Malarvannan,Modigari Narendra
発行日 2025-02-19 16:29:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV, cs.LG, cs.MM, cs.SD, eess.AS, F.2.2 | Multimodal Emotion Recognition using Audio-Video Transformer Fusion with Cross Attention はコメントを受け付けていません

MEX: Memory-efficient Approach to Referring Multi-Object Tracking

要約

参照マルチオブジェクト追跡(RMOT)は、コンピュータービジョンと自然言語処理の交差点で有望な研究方向として急速に牽引力を獲得した比較的新しい概念です。
従来のマルチオブジェクトトラッキングとは異なり、RMOTはオブジェクトを識別および追跡し、オブジェクトクラス名のテキスト説明を組み込み、アプローチをより直感的にします。
この挑戦的な問題に対処するために、さまざまな手法が提案されています。
ただし、ほとんどの場合、エンドツーエンドの性質のため、ネットワーク全体のトレーニングが必要です。
これらの方法の中で、イクンは特に有望な解決策として浮上しています。
したがって、パイプラインをさらに調査し、パフォーマンスを向上させます。
この論文では、メモリ効率の高いクロスモダリティと呼ばれる実用的なモジュールMEXを紹介します。
このメモリ効率の高い手法は、Ikunのような既製のトラッカーに直接適用でき、その結果、大幅なアーキテクチャの改善が可能になります。
私たちの方法は、4 GBのメモリを備えた単一のGPUでの推論中に効果的であることが証明されています。
さまざまなベンチマークの中で、関連する言語表現を備えた多様な自律運転シーンを提供するRefer-Kittiデータセットは、この問題を研究するのに特に役立ちます。
経験的に、私たちの方法は、Hota追跡スコアに関する有効性と効率性を示し、メモリの割り当てと処理速度を大幅に改善します。

要約(オリジナル)

Referring Multi-Object Tracking (RMOT) is a relatively new concept that has rapidly gained traction as a promising research direction at the intersection of computer vision and natural language processing. Unlike traditional multi-object tracking, RMOT identifies and tracks objects and incorporates textual descriptions for object class names, making the approach more intuitive. Various techniques have been proposed to address this challenging problem; however, most require the training of the entire network due to their end-to-end nature. Among these methods, iKUN has emerged as a particularly promising solution. Therefore, we further explore its pipeline and enhance its performance. In this paper, we introduce a practical module dubbed Memory-Efficient Cross-modality — MEX. This memory-efficient technique can be directly applied to off-the-shelf trackers like iKUN, resulting in significant architectural improvements. Our method proves effective during inference on a single GPU with 4 GB of memory. Among the various benchmarks, the Refer-KITTI dataset, which offers diverse autonomous driving scenes with relevant language expressions, is particularly useful for studying this problem. Empirically, our method demonstrates effectiveness and efficiency regarding HOTA tracking scores, substantially improving memory allocation and processing speed.

arxiv情報

著者 Huu-Thien Tran,Phuoc-Sang Pham,Thai-Son Tran,Khoa Luu
発行日 2025-02-19 16:58:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | MEX: Memory-efficient Approach to Referring Multi-Object Tracking はコメントを受け付けていません

Multi-view Video-Pose Pretraining for Operating Room Surgical Activity Recognition

要約

複雑な手術室での外科的処置のワークフローを理解するには、臨床医とその環境間の相互作用を深く理解する必要があります。
外科活動認識(SAR)は、マルチビューカメラの録音から活動または段階を検出する重要なコンピュータービジョンタスクです。
既存のSARモデルは、しっかりとした臨床医の動きとマルチビューの知識を考慮していないことがよくあります。または、より良い結果を得るために、キャリブレーションされたマルチビューカメラのセットアップと高度なポイントクラウド処理が必要です。
この作業では、ビデオポーズ外科活動の認識のためにマルチビュー事前削除と呼ばれる新しいキャリブレーションのないマルチビューマルチビューマルチモーダルプレイフレームワークを提案します。
私たちのモデルは、クリップスタイルのデュアルエンコーダーアーキテクチャに従います。1つのエンコーダーは視覚機能を処理し、もう1つは人間のポーズ埋め込みをエンコードします。
連続2Dヒトポーズ座標を処理するために、連続2Dポーズ座標を離散ポーズ埋め込みに変換するためにトークン化された離散表現を導入し、それによりデュアルエンコーダーフレームワーク内の効率的な統合を可能にします。
これら2つのモダリティ間のギャップを埋めるために、埋め込みスペース内の交差およびモダリティおよび内部の幾何学的制約を使用して、表現学習を強化するためにマスクされたポーズトークン予測戦略を組み込むいくつかの事前トレーニング目標を提案します。
広範な実験とアブレーション研究は強力なベースラインよりも改善を示し、2つの異なるオペレーティングルームデータセットでのデータ効率の実験は、アプローチの有効性をさらに強調しています。
複雑な外科環境での実際的な適用性を紹介するマルチビューとシングルビューの両方の設定での外科活動認識のアプローチの利点を強調します。
コードはhttps://github.com/camma-public/previpsで利用可能になります。

要約(オリジナル)

Understanding the workflow of surgical procedures in complex operating rooms requires a deep understanding of the interactions between clinicians and their environment. Surgical activity recognition (SAR) is a key computer vision task that detects activities or phases from multi-view camera recordings. Existing SAR models often fail to account for fine-grained clinician movements and multi-view knowledge, or they require calibrated multi-view camera setups and advanced point-cloud processing to obtain better results. In this work, we propose a novel calibration-free multi-view multi-modal pretraining framework called Multiview Pretraining for Video-Pose Surgical Activity Recognition PreViPS, which aligns 2D pose and vision embeddings across camera views. Our model follows CLIP-style dual-encoder architecture: one encoder processes visual features, while the other encodes human pose embeddings. To handle the continuous 2D human pose coordinates, we introduce a tokenized discrete representation to convert the continuous 2D pose coordinates into discrete pose embeddings, thereby enabling efficient integration within the dual-encoder framework. To bridge the gap between these two modalities, we propose several pretraining objectives using cross- and in-modality geometric constraints within the embedding space and incorporating masked pose token prediction strategy to enhance representation learning. Extensive experiments and ablation studies demonstrate improvements over the strong baselines, while data-efficiency experiments on two distinct operating room datasets further highlight the effectiveness of our approach. We highlight the benefits of our approach for surgical activity recognition in both multi-view and single-view settings, showcasing its practical applicability in complex surgical environments. Code will be made available at: https://github.com/CAMMA-public/PreViPS.

arxiv情報

著者 Idris Hamoud,Vinkle Srivastav,Muhammad Abdullah Jamal,Didier Mutter,Omid Mohareri,Nicolas Padoy
発行日 2025-02-19 17:08:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Multi-view Video-Pose Pretraining for Operating Room Surgical Activity Recognition はコメントを受け付けていません

MetaSSC: Enhancing 3D Semantic Scene Completion for Autonomous Driving through Meta-Learning and Long-sequence Modeling

要約

セマンティックシーンの完了(SSC)は、自律運転システムで包括的な認識を達成するために不可欠です。
ただし、既存のSSCメソッドは、多くの場合、実際のアプリケーションで高い展開コストを見落としています。
3D畳み込みニューラルネットワーク(3D CNNS)や自己関節メカニズムなどの従来のアーキテクチャは、3Dボクセルグリッド内の長距離依存関係を効率的にキャプチャする際の課題に直面し、その効果を制限します。
これらの問題に対処するために、変形可能な畳み込み、大型型の注意、およびMAMBA(D-LKA-M)モデルを活用するSSCの新しいメタラーニングベースのフレームワークであるMetasccを紹介します。
私たちのアプローチは、譲渡可能なメタ知識を取得しながら、不完全な領域のセマンティクスとジオメトリを調査することを目的とした、ボクセルベースのセマンティックセグメンテーション(SS)事前削除タスクから始まります。
シミュレートされた協調性認識データセットを使用して、複数の近くの接続された自律車両(Cavs)からの集約されたセンサーデータを使用して、単一の車両の認識トレーニングを監督し、より豊かで包括的なラベルを生成します。
このメタ知識は、追加のモデルパラメーターを追加せず、効率的な展開を可能にするデュアルフェーズトレーニング戦略を通じてターゲットドメインに適合します。
3Dボクセルグリッド内の長いシーケンス関係をキャプチャするモデルの能力をさらに強化するために、Mambaブロックを変形可能な畳み込みと大型型の注意をバックボーンネットワークに統合します。
大規模な実験は、Metasscが最先端のパフォーマンスを達成し、競合するモデルを大幅に上回り、展開コストも削減することを示しています。

要約(オリジナル)

Semantic scene completion (SSC) is essential for achieving comprehensive perception in autonomous driving systems. However, existing SSC methods often overlook the high deployment costs in real-world applications. Traditional architectures, such as 3D Convolutional Neural Networks (3D CNNs) and self-attention mechanisms, face challenges in efficiently capturing long-range dependencies within 3D voxel grids, limiting their effectiveness. To address these issues, we introduce MetaSSC, a novel meta-learning-based framework for SSC that leverages deformable convolution, large-kernel attention, and the Mamba (D-LKA-M) model. Our approach begins with a voxel-based semantic segmentation (SS) pretraining task, aimed at exploring the semantics and geometry of incomplete regions while acquiring transferable meta-knowledge. Using simulated cooperative perception datasets, we supervise the perception training of a single vehicle using aggregated sensor data from multiple nearby connected autonomous vehicles (CAVs), generating richer and more comprehensive labels. This meta-knowledge is then adapted to the target domain through a dual-phase training strategy that does not add extra model parameters, enabling efficient deployment. To further enhance the model’s capability in capturing long-sequence relationships within 3D voxel grids, we integrate Mamba blocks with deformable convolution and large-kernel attention into the backbone network. Extensive experiments demonstrate that MetaSSC achieves state-of-the-art performance, significantly outperforming competing models while also reducing deployment costs.

arxiv情報

著者 Yansong Qu,Zixuan Xu,Zilin Huang,Zihao Sheng,Tiantian Chen,Sikai Chen
発行日 2025-02-19 17:21:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | MetaSSC: Enhancing 3D Semantic Scene Completion for Autonomous Driving through Meta-Learning and Long-sequence Modeling はコメントを受け付けていません

EC-DIT: Scaling Diffusion Transformers with Adaptive Expert-Choice Routing

要約

拡散トランスは、テキスト間合成に広く採用されています。
これらのモデルを数十億のパラメーターまでスケーリングすることは有望ですが、現在のサイズを超えたスケーリングの有効性は、露出しておらず挑戦的なままです。
画像世代の計算不均一性を明示的に活用することにより、専門家の選択ルーティングを備えた拡散トランスのための新しい混合物(MOE)モデル(MOE)モデル(MOE)モデル(EC-DIT)の新しいファミリーを開発します。
EC-DITは、入力テキストを理解し、それぞれの画像パッチを生成するように割り当てられた計算を適応的に最適化することを学び、さまざまなテキストイメージの複雑さに合わせた不均一な計算を可能にします。
この不均一性は、最大970億のパラメーターまでのEC-DITをスケーリングし、トレーニングの収束、テキストから画像への調整、および密集したモデルおよび従来のMOEモデルよりも全体的な生成品質の大幅な改善を達成する効率的な方法を提供します。
広範なアブレーションを通じて、EC-DITは、エンドツーエンドトレーニングを通じてさまざまなテキストの重要性を認識することにより、優れたスケーラビリティと適応的な計算割り当てを実証することを示します。
特に、テキストから画像へのアラインメント評価では、最大のモデルは71.68%の最先端の遺伝的スコアを達成し、直感的な解釈可能性で競争力のある推論速度を維持しています。

要約(オリジナル)

Diffusion transformers have been widely adopted for text-to-image synthesis. While scaling these models up to billions of parameters shows promise, the effectiveness of scaling beyond current sizes remains underexplored and challenging. By explicitly exploiting the computational heterogeneity of image generations, we develop a new family of Mixture-of-Experts (MoE) models (EC-DIT) for diffusion transformers with expert-choice routing. EC-DIT learns to adaptively optimize the compute allocated to understand the input texts and generate the respective image patches, enabling heterogeneous computation aligned with varying text-image complexities. This heterogeneity provides an efficient way of scaling EC-DIT up to 97 billion parameters and achieving significant improvements in training convergence, text-to-image alignment, and overall generation quality over dense models and conventional MoE models. Through extensive ablations, we show that EC-DIT demonstrates superior scalability and adaptive compute allocation by recognizing varying textual importance through end-to-end training. Notably, in text-to-image alignment evaluation, our largest models achieve a state-of-the-art GenEval score of 71.68% and still maintain competitive inference speed with intuitive interpretability.

arxiv情報

著者 Haotian Sun,Tao Lei,Bowen Zhang,Yanghao Li,Haoshuo Huang,Ruoming Pang,Bo Dai,Nan Du
発行日 2025-02-19 17:22:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG | EC-DIT: Scaling Diffusion Transformers with Adaptive Expert-Choice Routing はコメントを受け付けていません

NavigateDiff: Visual Predictors are Zero-Shot Navigation Assistants

要約

なじみのない環境をナビゲートすることは、家庭用ロボットに大きな課題をもたらし、新しい装飾とレイアウトについて認識する能力と推論を必要とします。
既存の強化学習方法は、通常、広範なマッピングと探索に依存しているため、新しい環境に直接転送することはできません。
これらの課題に対処するために、事前に訓練された基礎モデルの論理的知識と一般化能力をゼロショットナビゲーションに転送しようとします。
大規模なビジョン言語モデルを拡散ネットワークと統合することにより、\ mname〜という名前のアプローチは、ロボットがロボットを生成するのを支援できる次のステップでエージェントの潜在的な観測を継続的に予測する視覚予測因子を構築します。
さらに、ナビゲーションの時間的特性を適応させるために、時間の歴史的情報を導入して、予測された画像がナビゲーションシーンに沿っていることを確認します。
次に、下流の画像ナビゲーションタスクを解決するための目標測定ポリシーへのガイダンスとして、予測される将来のフレームを埋め込む情報融合フレームワークを慎重に設計しました。
このアプローチは、シミュレートされた環境と現実世界の両方の環境にわたってナビゲーション制御と一般化を強化します。
広範な実験を通じて、私たちの方法の堅牢性と汎用性を実証し、多様な設定でのロボットナビゲーションの効率と有効性を改善する可能性を示しています。

要約(オリジナル)

Navigating unfamiliar environments presents significant challenges for household robots, requiring the ability to recognize and reason about novel decoration and layout. Existing reinforcement learning methods cannot be directly transferred to new environments, as they typically rely on extensive mapping and exploration, leading to time-consuming and inefficient. To address these challenges, we try to transfer the logical knowledge and the generalization ability of pre-trained foundation models to zero-shot navigation. By integrating a large vision-language model with a diffusion network, our approach named \mname ~constructs a visual predictor that continuously predicts the agent’s potential observations in the next step which can assist robots generate robust actions. Furthermore, to adapt the temporal property of navigation, we introduce temporal historical information to ensure that the predicted image is aligned with the navigation scene. We then carefully designed an information fusion framework that embeds the predicted future frames as guidance into goal-reaching policy to solve downstream image navigation tasks. This approach enhances navigation control and generalization across both simulated and real-world environments. Through extensive experimentation, we demonstrate the robustness and versatility of our method, showcasing its potential to improve the efficiency and effectiveness of robotic navigation in diverse settings.

arxiv情報

著者 Yiran Qin,Ao Sun,Yuze Hong,Benyou Wang,Ruimao Zhang
発行日 2025-02-19 17:27:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | NavigateDiff: Visual Predictors are Zero-Shot Navigation Assistants はコメントを受け付けていません