CellStyle: Improved Zero-Shot Cell Segmentation via Style Transfer

要約

細胞顕微鏡データは豊富です。
ただし、対応するセグメンテーション注釈は希少なままです。
さらに、セルタイプ、イメージングデバイス、染色技術のバリエーションは、データセット間に重要なドメインギャップをもたらします。
その結果、多様なデータセット(ソースデータセット)で訓練された大規模で前提条件のセグメンテーションモデルでさえ、目に見えないデータセット(ターゲットデータセット)に一般化するのに苦労しています。
この一般化問題を克服するために、ターゲットデータセットにラベルを必要とせずにそのようなモデルのセグメンテーション品質を改善するCellStyleを提案し、それによりゼロショットの適応を可能にします。
CellStyleは、テクスチャ、色、ノイズなどの発表されていないターゲットデータセットの属性を注釈付きのソースデータセットに転送します。
この転送は、ソース画像のセル形状を保持しながら実行され、ターゲットデータセットの視覚特性を維持しながら既存のソース注釈を使用できるようにします。
既存の注釈を備えたスタイルの合成画像により、発表されていないターゲットデータへの適用のためのジェネラリストセグメンテーションモデルの微調整を可能にします。
CellSteleは、スタイルが移動されたデータで複数のセグメンテーションモデルを獲得することにより、多様なデータセット全体でゼロショットセルセグメンテーションのパフォーマンスを大幅に改善することを実証します。
コードは公開されます。

要約(オリジナル)

Cell microscopy data are abundant; however, corresponding segmentation annotations remain scarce. Moreover, variations in cell types, imaging devices, and staining techniques introduce significant domain gaps between datasets. As a result, even large, pretrained segmentation models trained on diverse datasets (source datasets) struggle to generalize to unseen datasets (target datasets). To overcome this generalization problem, we propose CellStyle, which improves the segmentation quality of such models without requiring labels for the target dataset, thereby enabling zero-shot adaptation. CellStyle transfers the attributes of an unannotated target dataset, such as texture, color, and noise, to the annotated source dataset. This transfer is performed while preserving the cell shapes of the source images, ensuring that the existing source annotations can still be used while maintaining the visual characteristics of the target dataset. The styled synthetic images with the existing annotations enable the finetuning of a generalist segmentation model for application to the unannotated target data. We demonstrate that CellStyle significantly improves zero-shot cell segmentation performance across diverse datasets by finetuning multiple segmentation models on the style-transferred data. The code will be made publicly available.

arxiv情報

著者 Rüveyda Yilmaz,Zhu Chen,Yuli Wu,Johannes Stegmaier
発行日 2025-03-11 16:39:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG | CellStyle: Improved Zero-Shot Cell Segmentation via Style Transfer はコメントを受け付けていません

Tuning-Free Multi-Event Long Video Generation via Synchronized Coupled Sampling

要約

テキストからビデオへの拡散モデルの最近の進歩により、単一のプロンプトから高品質の短いビデオ生成が可能になりますが、データが限られていることと高い計算コストのために、単一のパスで実際の長いビデオを生成することが困難です。
これに対処するために、いくつかの作品がチューニングのないアプローチ、つまり長いビデオ生成のために既存のモデルを拡張することを提案します。特に複数のプロンプトを使用して、動的および制御されたコンテンツの変更を可能にします。
ただし、これらの方法は主に、隣接するフレーム間のスムーズな遷移を確保することに焦点を当てており、多くの場合、コンテンツのドリフトと、長いシーケンスにわたってセマンティックコヒーレンスの徐々に失われます。
このような問題に取り組むために、ビデオ全体の除去パスを同期する新しい推論フレームワークである同期化された結合サンプリング(Syncos)を提案し、隣接するフレームと遠いフレームの両方で長距離の一貫性を確保します。
私たちのアプローチは、2つの補完的なサンプリング戦略を組み合わせています。リバースと最適化ベースのサンプリングと、それぞれシームレスなローカルトランジションを保証し、グローバルな一貫性を実施します。
ただし、これらのサンプリング間を直接交互に交互に交互に軌跡を誤って整理し、迅速なガイダンスを混乱させ、独立して動作する意図しないコンテンツの変更を導入します。
これを解決するために、Syncosは接地されたタイムステップと固定ベースラインノイズを介してそれらを同期させ、整列した除去パスで完全に結合したサンプリングを確保します。
広範な実験では、Syncosがマルチイベントの長いビデオ生成を大幅に改善し、よりスムーズな遷移と優れた長距離コヒーレンスを達成し、以前のアプローチを定量的かつ定性的に上回ることが示されています。

要約(オリジナル)

While recent advancements in text-to-video diffusion models enable high-quality short video generation from a single prompt, generating real-world long videos in a single pass remains challenging due to limited data and high computational costs. To address this, several works propose tuning-free approaches, i.e., extending existing models for long video generation, specifically using multiple prompts to allow for dynamic and controlled content changes. However, these methods primarily focus on ensuring smooth transitions between adjacent frames, often leading to content drift and a gradual loss of semantic coherence over longer sequences. To tackle such an issue, we propose Synchronized Coupled Sampling (SynCoS), a novel inference framework that synchronizes denoising paths across the entire video, ensuring long-range consistency across both adjacent and distant frames. Our approach combines two complementary sampling strategies: reverse and optimization-based sampling, which ensure seamless local transitions and enforce global coherence, respectively. However, directly alternating between these samplings misaligns denoising trajectories, disrupting prompt guidance and introducing unintended content changes as they operate independently. To resolve this, SynCoS synchronizes them through a grounded timestep and a fixed baseline noise, ensuring fully coupled sampling with aligned denoising paths. Extensive experiments show that SynCoS significantly improves multi-event long video generation, achieving smoother transitions and superior long-range coherence, outperforming previous approaches both quantitatively and qualitatively.

arxiv情報

著者 Subin Kim,Seoung Wug Oh,Jui-Hsien Wang,Joon-Young Lee,Jinwoo Shin
発行日 2025-03-11 16:43:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG | Tuning-Free Multi-Event Long Video Generation via Synchronized Coupled Sampling はコメントを受け付けていません

Curriculum Direct Preference Optimization for Diffusion and Consistency Models

要約

直接選好最適化(DPO)は、人間のフィードバック(RLHF)からの強化学習の効果的かつ効率的な代替手段として提案されています。
この論文では、テキストからイメージの生成のためのカリキュラム学習に基づいて、DPOの斬新で強化されたバージョンを提案します。
私たちの方法は、2つのトレーニング段階に分かれています。
まず、各プロンプトに対して生成された例のランキングは、報酬モデルを使用することによって取得されます。
次に、ますます困難な例のペアがサンプリングされ、テキストからイメージまでの生成(拡散または一貫性)モデルに提供されます。
ランキングで遠く離れている生成されたサンプルは、簡単なペアを形成すると考えられていますが、ランキングはハードペアに近いものです。
言い換えれば、サンプル間のランク差を難易度の尺度として使用します。
サンプリングされたペアは、難易度に応じてバッチに分割され、生成モデルのトレーニングに徐々に使用されます。
私たちのアプローチであるカリキュラムDPOは、9つのベンチマーク上の最先端の微調整アプローチと比較され、テキストの調整、美学、人間の好みの観点から競合する方法を上回ります。
私たちのコードは、https://github.com/croitrualin/curriculum-dpoで入手できます。

要約(オリジナル)

Direct Preference Optimization (DPO) has been proposed as an effective and efficient alternative to reinforcement learning from human feedback (RLHF). In this paper, we propose a novel and enhanced version of DPO based on curriculum learning for text-to-image generation. Our method is divided into two training stages. First, a ranking of the examples generated for each prompt is obtained by employing a reward model. Then, increasingly difficult pairs of examples are sampled and provided to a text-to-image generative (diffusion or consistency) model. Generated samples that are far apart in the ranking are considered to form easy pairs, while those that are close in the ranking form hard pairs. In other words, we use the rank difference between samples as a measure of difficulty. The sampled pairs are split into batches according to their difficulty levels, which are gradually used to train the generative model. Our approach, Curriculum DPO, is compared against state-of-the-art fine-tuning approaches on nine benchmarks, outperforming the competing methods in terms of text alignment, aesthetics and human preference. Our code is available at https://github.com/CroitoruAlin/Curriculum-DPO.

arxiv情報

著者 Florinel-Alin Croitoru,Vlad Hondru,Radu Tudor Ionescu,Nicu Sebe,Mubarak Shah
発行日 2025-03-11 16:44:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG | Curriculum Direct Preference Optimization for Diffusion and Consistency Models はコメントを受け付けていません

Vision Transformer for Intracranial Hemorrhage Classification in CT Scans Using an Entropy-Aware Fuzzy Integral Strategy for Adaptive Scan-Level Decision Fusion

要約

頭蓋内出血(ICH)は、脳血管の破裂によって引き起こされる重大な医学的緊急事態であり、頭蓋骨内の内部出血につながります。
出血サブタイプの正確でタイムリーな分類は、効果的な臨床的意思決定に不可欠です。
この課題に対処するために、高度なピラミッドビジョントランス(PVT)ベースのモデルを提案し、階層的な注意メカニズムを活用して、脳CTスキャンで局所的およびグローバルな空間的依存関係の両方をキャプチャします。
すべての抽出された機能を無差別に処理する代わりに、SHAPベースの特徴選択方法を使用して、最も識別的なコンポーネントを特定するために採用されており、その後、ブーストニューラルネットワークをトレーニングする潜在的な特徴スペースとして使用され、計算の複雑さが減少します。
複数のCTスライスで情報を融合するためのファジー積分演算子とともに、エントロピーを意識した集約戦略を導入し、スリス間依存を考慮して、より包括的で信頼性の高いスキャンレベルの診断を保証します。
実験結果は、PVTベースのフレームワークが、分類の精度、精度、堅牢性の観点から、最先端の深い学習アーキテクチャを大幅に上回ることを示しています。
SHAP駆動型の特徴選択、変圧器ベースのモデリング、および意思決定融合のためにエントロピー認識ファジー積分演算子を組み合わせることにより、この方法は、自動ICHサブタイプ分類のためのスケーラブルで計算効率の高いAI駆動型ソリューションを提供します。

要約(オリジナル)

Intracranial hemorrhage (ICH) is a critical medical emergency caused by the rupture of cerebral blood vessels, leading to internal bleeding within the skull. Accurate and timely classification of hemorrhage subtypes is essential for effective clinical decision-making. To address this challenge, we propose an advanced pyramid vision transformer (PVT)-based model, leveraging its hierarchical attention mechanisms to capture both local and global spatial dependencies in brain CT scans. Instead of processing all extracted features indiscriminately, A SHAP-based feature selection method is employed to identify the most discriminative components, which are then used as a latent feature space to train a boosting neural network, reducing computational complexity. We introduce an entropy-aware aggregation strategy along with a fuzzy integral operator to fuse information across multiple CT slices, ensuring a more comprehensive and reliable scan-level diagnosis by accounting for inter-slice dependencies. Experimental results show that our PVT-based framework significantly outperforms state-of-the-art deep learning architectures in terms of classification accuracy, precision, and robustness. By combining SHAP-driven feature selection, transformer-based modeling, and an entropy-aware fuzzy integral operator for decision fusion, our method offers a scalable and computationally efficient AI-driven solution for automated ICH subtype classification.

arxiv情報

著者 Mehdi Hosseini Chagahi,Niloufar Delfan,Behzad Moshiri,Md. Jalil Piran,Jaber Hatam Parikhan
発行日 2025-03-11 16:47:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, eess.IV | Vision Transformer for Intracranial Hemorrhage Classification in CT Scans Using an Entropy-Aware Fuzzy Integral Strategy for Adaptive Scan-Level Decision Fusion はコメントを受け付けていません

HO-Cap: A Capture System and Dataset for 3D Reconstruction and Pose Tracking of Hand-Object Interaction

要約

3D再構成のために、データキャプチャシステムと新しいデータセット、HO-CAPを紹介し、ビデオで手とオブジェクトの追跡をポーズにします。
このシステムは、高価な3DスキャナーまたはMOCAPシステムの使用を避けて、データ収集のために複数のRGBDカメラとHololensヘッドセットを活用しています。
収集されたビデオで手とオブジェクトの形状とポーズを注視するための半自動方法を提案し、手動ラベルと比較して注釈時間を大幅に短縮します。
このシステムを使用して、オブジェクトと対話する人間のビデオデータセットをキャプチャして、単純なピックアンドプレイスアクション、手の間の手ぶり、アフォーダンスに従ってオブジェクトを使用するさまざまなタスクを実行しました。
当社のデータキャプチャセットアップと注釈フレームワークは、コミュニティがオブジェクトと人間の手の3D形状を再構築し、ビデオでポーズを追跡するのに使用できるようになります。

要約(オリジナル)

We introduce a data capture system and a new dataset, HO-Cap, for 3D reconstruction and pose tracking of hands and objects in videos. The system leverages multiple RGBD cameras and a HoloLens headset for data collection, avoiding the use of expensive 3D scanners or mocap systems. We propose a semi-automatic method for annotating the shape and pose of hands and objects in the collected videos, significantly reducing the annotation time compared to manual labeling. With this system, we captured a video dataset of humans interacting with objects to perform various tasks, including simple pick-and-place actions, handovers between hands, and using objects according to their affordance, which can serve as human demonstrations for research in embodied AI and robot manipulation. Our data capture setup and annotation framework will be available for the community to use in reconstructing 3D shapes of objects and human hands and tracking their poses in videos.

arxiv情報

著者 Jikai Wang,Qifan Zhang,Yu-Wei Chao,Bowen Wen,Xiaohu Guo,Yu Xiang
発行日 2025-03-11 16:48:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | HO-Cap: A Capture System and Dataset for 3D Reconstruction and Pose Tracking of Hand-Object Interaction はコメントを受け付けていません

INPC: Implicit Neural Point Clouds for Radiance Field Rendering

要約

未結合の実世界のシーンの再構築と新しいビューの統合のための新しいアプローチを紹介します。
体積フィールド、グリッドベースのモデル、または離散ポイントクラウドプロキシのいずれかを使用した以前の方法とは対照的に、ハイブリッドシーン表現を提案します。これは、連続したオクトリーベースの確率フィールドでジオメトリを暗黙的にエンコードし、マルチ解像度ハッシュグリッドでビュー依存の外観をエンコードします。
これにより、任意の明示的な点雲を抽出することができ、ラスター化を使用してレンダリングできます。
そうすることで、私たちは両方の世界の利点を組み合わせ、最適化中に好ましい行動を維持します。私たちの新しい暗黙の点雲表現と微分双線形ラスタライザーは、ボリューム神経界で捕らえられた細かい幾何学的ディテールを維持しながら、高速なレンダリングを有効にします。
さらに、この表現は、構造からモーションポイントクラウドのようなプライアーに依存しません。
私たちの方法は、一般的なベンチマークで最先端の画質を達成します。
さらに、インタラクティブなフレームレートで高速な推論を実現し、訓練されたモデルを大規模で明示的なポイントクラウドに変換してパフォーマンスをさらに向上させることができます。

要約(オリジナル)

We introduce a new approach for reconstruction and novel view synthesis of unbounded real-world scenes. In contrast to previous methods using either volumetric fields, grid-based models, or discrete point cloud proxies, we propose a hybrid scene representation, which implicitly encodes the geometry in a continuous octree-based probability field and view-dependent appearance in a multi-resolution hash grid. This allows for extraction of arbitrary explicit point clouds, which can be rendered using rasterization. In doing so, we combine the benefits of both worlds and retain favorable behavior during optimization: Our novel implicit point cloud representation and differentiable bilinear rasterizer enable fast rendering while preserving the fine geometric detail captured by volumetric neural fields. Furthermore, this representation does not depend on priors like structure-from-motion point clouds. Our method achieves state-of-the-art image quality on common benchmarks. Furthermore, we achieve fast inference at interactive frame rates, and can convert our trained model into a large, explicit point cloud to further enhance performance.

arxiv情報

著者 Florian Hahlbohm,Linus Franke,Moritz Kappel,Susana Castillo,Martin Eisemann,Marc Stamminger,Marcus Magnor
発行日 2025-03-11 16:51:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.GR, cs.LG | INPC: Implicit Neural Point Clouds for Radiance Field Rendering はコメントを受け付けていません

HiP-AD: Hierarchical and Multi-Granularity Planning with Deformable Attention for Autonomous Driving in a Single Decoder

要約

エンドツーエンドの自律運転(E2E-AD)テクノロジーは近年大きな進歩を遂げていますが、閉ループ評価では不十分なパフォーマンスが残っています。
クエリの設計と相互作用における計画を活用する可能性はまだ完全には検討されていません。
このホワイトペーパーでは、さまざまなサンプリングパターンにわたって空間、時間、および運転スタイルのウェイポイントを含む不均一なウェイポイントを統合するマルチ粒度計画クエリ表現を紹介します。
軌道予測のための追加の監督を提供し、エゴ車両の正確な閉ループ制御を強化します。
さらに、計画軌道の幾何学的特性を明示的に利用して、変形可能な注意を使用して物理的な場所に基づいて関連する画像機能を効果的に取得します。
これらの戦略を組み合わせることにより、HIP-ADと呼ばれる新しいエンドツーエンドの自律運転フレームワークを提案します。これは、統合デコーダー内で知覚、予測、および計画を同時に実行します。
HIP-ADは、計画クエリがBEV空間内の知覚クエリと繰り返し相互作用しながら、観点から画像機能を動的に抽出できるようにすることにより、包括的な対話を可能にします。
実験は、HIP-ADが閉ループベンチマークベンチ2Driveのすべての既存のエンドツーエンドの自律運転方法を上回り、実際のデータセットヌスセンで競争力のあるパフォーマンスを達成することを示しています。

要約(オリジナル)

Although end-to-end autonomous driving (E2E-AD) technologies have made significant progress in recent years, there remains an unsatisfactory performance on closed-loop evaluation. The potential of leveraging planning in query design and interaction has not yet been fully explored. In this paper, we introduce a multi-granularity planning query representation that integrates heterogeneous waypoints, including spatial, temporal, and driving-style waypoints across various sampling patterns. It provides additional supervision for trajectory prediction, enhancing precise closed-loop control for the ego vehicle. Additionally, we explicitly utilize the geometric properties of planning trajectories to effectively retrieve relevant image features based on physical locations using deformable attention. By combining these strategies, we propose a novel end-to-end autonomous driving framework, termed HiP-AD, which simultaneously performs perception, prediction, and planning within a unified decoder. HiP-AD enables comprehensive interaction by allowing planning queries to iteratively interact with perception queries in the BEV space while dynamically extracting image features from perspective views. Experiments demonstrate that HiP-AD outperforms all existing end-to-end autonomous driving methods on the closed-loop benchmark Bench2Drive and achieves competitive performance on the real-world dataset nuScenes.

arxiv情報

著者 Yingqi Tang,Zhuoran Xu,Zhaotie Meng,Erkang Cheng
発行日 2025-03-11 16:52:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | HiP-AD: Hierarchical and Multi-Granularity Planning with Deformable Attention for Autonomous Driving in a Single Decoder はコメントを受け付けていません

LightGen: Efficient Image Generation through Knowledge Distillation and Direct Preference Optimization

要約

テキストからイメージの生成の最近の進歩は、主に広範なデータセットとパラメーターが多いアーキテクチャに依存しています。
これらの要件は、実質的な計算リソースを欠く研究者と実践者のアクセシビリティを厳しく制限しています。
この論文では、知識蒸留(KD)と直接優先最適化(DPO)を使用する画像生成モデルの効率的なトレーニングパラダイムである\ Modelを紹介します。
Multi-Modal Large Language Models(MLLM)で広く採用されているデータKDテクニックの成功からインスピレーションを得て、Lightgenは、最先端の(SOTA)テキストからイメージモデルから知識を蒸留し、わずか0.70億ドルのパラメーターを持つコンパクトなマスクモデル(MAR)アーキテクチャを蒸留します。
さまざまなキャプションから生成されたわずか200万ドルの高品質の画像のコンパクトな合成データセットを使用して、データの多様性がモデルのパフォーマンスを決定する際にデータ量を大幅に上回ることを示します。
この戦略は、計算需要を劇的に削減し、トレーニング前の時間を数千のGPU日からわずか88 GPU日まで短縮します。
さらに、合成データの固有の欠点、特に高周波の詳細が不十分で空間的な不正確さに対処するために、画像の忠実度と位置の精度を改良するDPO技術を統合します。
包括的な実験では、LightgenがSOTAモデルに匹敵する画像生成の品質を達成しながら、計算リソースを大幅に削減し、リソースに制約のある環境のアクセシビリティを拡大することを確認しています。
コードはhttps://github.com/xianfengwu01/lightgenで入手できます

要約(オリジナル)

Recent advances in text-to-image generation have primarily relied on extensive datasets and parameter-heavy architectures. These requirements severely limit accessibility for researchers and practitioners who lack substantial computational resources. In this paper, we introduce \model, an efficient training paradigm for image generation models that uses knowledge distillation (KD) and Direct Preference Optimization (DPO). Drawing inspiration from the success of data KD techniques widely adopted in Multi-Modal Large Language Models (MLLMs), LightGen distills knowledge from state-of-the-art (SOTA) text-to-image models into a compact Masked Autoregressive (MAR) architecture with only $0.7B$ parameters. Using a compact synthetic dataset of just $2M$ high-quality images generated from varied captions, we demonstrate that data diversity significantly outweighs data volume in determining model performance. This strategy dramatically reduces computational demands and reduces pre-training time from potentially thousands of GPU-days to merely 88 GPU-days. Furthermore, to address the inherent shortcomings of synthetic data, particularly poor high-frequency details and spatial inaccuracies, we integrate the DPO technique that refines image fidelity and positional accuracy. Comprehensive experiments confirm that LightGen achieves image generation quality comparable to SOTA models while significantly reducing computational resources and expanding accessibility for resource-constrained environments. Code is available at https://github.com/XianfengWu01/LightGen

arxiv情報

著者 Xianfeng Wu,Yajing Bai,Haoze Zheng,Harold Haodong Chen,Yexin Liu,Zihao Wang,Xuran Ma,Wen-Jie Shu,Xianzu Wu,Harry Yang,Ser-Nam Lim
発行日 2025-03-11 16:58:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | LightGen: Efficient Image Generation through Knowledge Distillation and Direct Preference Optimization はコメントを受け付けていません

RealmDreamer: Text-Driven 3D Scene Generation with Inpainting and Depth Diffusion

要約

Textの説明から前向きな3Dシーンを生成するためのテクニックであるRealMDreamerを紹介します。
私たちの方法は、3Dガウスのスプラット表現を最適化して、前処理された拡散モデルを使用して複雑なテキストプロンプトに一致させます。
私たちの重要な洞察は、3D蒸留中に未知の領域に低い分散監督を提供するために、初期シーンの推定に条件付けられた2Dの開始拡散モデルを活用することです。
併せて、入力モデルからのサンプルを条件付けられた深さ拡散モデルからの幾何学的蒸留に高忠実度の幾何学を吹き込みます。
最適化の初期化が重要であり、そうするための原則的な方法論を提供することがわかります。
特に、私たちの手法はビデオまたはマルチビューデータを必要とせず、複雑なレイアウトを備えたさまざまなスタイルのさまざまな高品質の3Dシーンを合成できます。
さらに、この方法の一般性により、単一の画像からの3D合成が可能になります。
包括的なユーザー調査で測定されたように、当社の方法は、88-95%で優先される既存のすべてのアプローチよりも優れています。
プロジェクトページ:https://realmdreamer.github.io/

要約(オリジナル)

We introduce RealmDreamer, a technique for generating forward-facing 3D scenes from text descriptions. Our method optimizes a 3D Gaussian Splatting representation to match complex text prompts using pretrained diffusion models. Our key insight is to leverage 2D inpainting diffusion models conditioned on an initial scene estimate to provide low variance supervision for unknown regions during 3D distillation. In conjunction, we imbue high-fidelity geometry with geometric distillation from a depth diffusion model, conditioned on samples from the inpainting model. We find that the initialization of the optimization is crucial, and provide a principled methodology for doing so. Notably, our technique doesn’t require video or multi-view data and can synthesize various high-quality 3D scenes in different styles with complex layouts. Further, the generality of our method allows 3D synthesis from a single image. As measured by a comprehensive user study, our method outperforms all existing approaches, preferred by 88-95%. Project Page: https://realmdreamer.github.io/

arxiv情報

著者 Jaidev Shriram,Alex Trevithick,Lingjie Liu,Ravi Ramamoorthi
発行日 2025-03-11 17:06:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.GR, cs.LG | RealmDreamer: Text-Driven 3D Scene Generation with Inpainting and Depth Diffusion はコメントを受け付けていません

SegAgent: Exploring Pixel Understanding Capabilities in MLLMs by Imitating Human Annotator Trajectories

要約

MLLMは適切な画像理解機能を実証していますが、Pixelレベルの理解に苦労しており、実際のアプリケーションを制限しています。
VQAや視覚的接地などの現在の評価タスクは、微細なピクセル理解を正確に評価するには粗すぎます。
セグメンテーションはピクセルレベルの理解の基礎ですが、既存の方法では、外部ピクセルデコーダーを介してデコードされた暗黙のトークンを生成するためにMLLMが必要です。
このアプローチは、MLLMのテキスト出力スペースを破壊し、言語の能力を損ない、柔軟性と拡張性を低下させ、モデルの固有のピクセルレベルの理解を反映しません。
したがって、MLLMがインタラクティブセグメンテーションツールを使用してヒトアノテーターを模倣する新しいパラダイムである人間のようなマスク注釈タスク(HLMAT)を紹介します。
マルチステップマルコフ決定プロセスとしてのセグメンテーションのモデリングHLMATにより、MLLMはテキストベースのクリックポイントを繰り返し生成し、アーキテクチャの変更や暗黙のトークンなしで高品質のマスクを実現できます。
このセットアップを通じて、人間のような注釈軌跡に微調整されたモデルであるSegagentを開発します。これは、最先端の(SOTA)メソッドに匹敵するパフォーマンスを実現し、マスクの洗練や注釈フィルタリングなどの追加タスクをサポートします。
HLMATは、MLLMSでのきめ細かいピクセル理解を評価するためのプロトコルを提供し、MLLMの視覚的推論能力の探求を促進する視覚中心のマルチステップの意思決定タスクを導入します。
ポリシー改善方法の適応STARとPRM誘導ツリー検索は、複雑なセグメンテーションタスクのモデルの堅牢性をさらに高め、MLLMの微細な視覚知覚とマルチステップの意思決定における将来の進歩の基礎を築きます。

要約(オリジナル)

While MLLMs have demonstrated adequate image understanding capabilities, they still struggle with pixel-level comprehension, limiting their practical applications. Current evaluation tasks like VQA and visual grounding remain too coarse to assess fine-grained pixel comprehension accurately. Though segmentation is foundational for pixel-level understanding, existing methods often require MLLMs to generate implicit tokens, decoded through external pixel decoders. This approach disrupts the MLLM’s text output space, potentially compromising language capabilities and reducing flexibility and extensibility, while failing to reflect the model’s intrinsic pixel-level understanding. Thus, we introduce the Human-Like Mask Annotation Task (HLMAT), a new paradigm where MLLMs mimic human annotators using interactive segmentation tools. Modeling segmentation as a multi-step Markov Decision Process, HLMAT enables MLLMs to iteratively generate text-based click points, achieving high-quality masks without architectural changes or implicit tokens. Through this setup, we develop SegAgent, a model fine-tuned on human-like annotation trajectories, which achieves performance comparable to state-of-the-art (SOTA) methods and supports additional tasks like mask refinement and annotation filtering. HLMAT provides a protocol for assessing fine-grained pixel understanding in MLLMs and introduces a vision-centric, multi-step decision-making task that facilitates exploration of MLLMs’ visual reasoning abilities. Our adaptations of policy improvement method StaR and PRM-guided tree search further enhance model robustness in complex segmentation tasks, laying a foundation for future advancements in fine-grained visual perception and multi-step decision-making for MLLMs.

arxiv情報

著者 Muzhi Zhu,Yuzhuo Tian,Hao Chen,Chunluan Zhou,Qingpei Guo,Yang Liu,Ming Yang,Chunhua Shen
発行日 2025-03-11 17:08:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | SegAgent: Exploring Pixel Understanding Capabilities in MLLMs by Imitating Human Annotator Trajectories はコメントを受け付けていません