Visual Position Prompt for MLLM based Visual Grounding

要約

マルチモーダルの大手言語モデル(MLLM)は、さまざまな画像関連のタスクに優れていますが、特に視覚接地などの位置認識タスクで、画像内の空間情報と正確に座標を整合することで課題に遭遇します。
この制限は、2つの重要な要因から生じます。
第一に、MLLMは明示的な空間的参照を欠いているため、テキストの説明を正確な画像の位置に関連付けることが困難です。
第二に、それらの機能抽出プロセスは、細粒の空間的詳細よりもグローバルコンテキストを優先し、ローカリゼーション能力が弱くなります。
この問題に対処するために、視覚的位置プロンプト(VPP)を装備したMLLMであるVPP-llavaを導入して、その接地機能を改善します。
VPP-llavaは、2つの相補的メカニズムを統合します。
グローバルVPPオーバーレイは、入力画像に軸のような埋め込みを学習可能で、構造化された空間キューを提供します。
ローカルVPPは、オブジェクトの位置を示唆する位置認識クエリを組み込むことにより、細粒のローカリゼーションに焦点を当てています。
また、0.6mのサンプルを備えたVPP-SFTデータセットを導入し、高品質の視覚的接地データを効率的なモデルトレーニングのためにコンパクト形式に統合します。
VPPを使用したこのデータセットでのトレーニングは、モデルのパフォーマンスを向上させ、Minigpt-V2などの他のMLLMと比較してより少ないトレーニングサンプルを使用しているにもかかわらず、標準の接地ベンチマークで最先端の結果を達成します。
コードとVPP-SFTデータセットは、受け入れればhttps://github.com/waynetomas/vpp-llavaで入手できます。

要約(オリジナル)

Although Multimodal Large Language Models (MLLMs) excel at various image-related tasks, they encounter challenges in precisely aligning coordinates with spatial information within images, particularly in position-aware tasks such as visual grounding. This limitation arises from two key factors. First, MLLMs lack explicit spatial references, making it difficult to associate textual descriptions with precise image locations. Second, their feature extraction processes prioritize global context over fine-grained spatial details, leading to weak localization capability. To address this issue, we introduce VPP-LLaVA, an MLLM equipped with Visual Position Prompt (VPP) to improve its grounding capability. VPP-LLaVA integrates two complementary mechanisms. The global VPP overlays learnable, axis-like embeddings onto the input image to provide structured spatial cues. The local VPP focuses on fine-grained localization by incorporating position-aware queries, which suggests probable object locations. We also introduce a VPP-SFT dataset with 0.6M samples, consolidating high-quality visual grounding data into a compact format for efficient model training. Training on this dataset with VPP enhances the model’s performance, achieving state-of-the-art results on standard grounding benchmarks despite using fewer training samples compared to other MLLMs like MiniGPT-v2, which rely on much larger datasets ($\sim$21M samples). The code and VPP-SFT dataset will be available at https://github.com/WayneTomas/VPP-LLaVA upon acceptance.

arxiv情報

著者 Wei Tang,Yanpeng Sun,Qinying Gu,Zechao Li
発行日 2025-03-19 17:08:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | Visual Position Prompt for MLLM based Visual Grounding はコメントを受け付けていません

V2X-DG: Domain Generalization for Vehicle-to-Everything Cooperative Perception

要約

LIDARベースの車両からすべての車両(V2X)協同組合の認識は、自律運転の安全性と有効性への影響を実証しています。
現在の協同的認識アルゴリズムは同じデータセットでトレーニングおよびテストされているため、協同的認識システムの一般化能力は未脱カタリングのままです。
このペーパーは、4つの広く使用されているオープンソースデータセットに基づく3D検出のためのLIDARベースのV2X協同的認識(V2X-DG)のドメイン一般化問題を研究する最初の作業です:OPV2V、V2XSET、V2V4REAL、DAIR-V2X。
私たちの研究では、ソースドメイン内だけでなく、ソースドメインでのトレーニングのみを通じて達成される他の目に見えないドメイン全体で高性能を維持しようとしています。
この目的のために、協力的な知覚のドメインギャップ向けに設計された目に見えない協力をシミュレートすることにより、モデルの一般化能力を改善するために、協同組合混合拡張ベースの一般化(CMAG)を提案します。
さらに、CMAGによる一般化された協力の中間に融合した特徴と、ソースドメインでの元の協力の初期の融合機能を整列させる、堅牢な一般化された特徴表現学習:協力機能の一貫性(CFC)の正規化のための制約を提案します。
広範な実験は、他の目に見えないデータセットに一般化するときに、私たちのアプローチが大幅なパフォーマンスの向上を達成することを示していますが、ソースデータセットでも強力なパフォーマンスを維持しています。

要約(オリジナル)

LiDAR-based Vehicle-to-Everything (V2X) cooperative perception has demonstrated its impact on the safety and effectiveness of autonomous driving. Since current cooperative perception algorithms are trained and tested on the same dataset, the generalization ability of cooperative perception systems remains underexplored. This paper is the first work to study the Domain Generalization problem of LiDAR-based V2X cooperative perception (V2X-DG) for 3D detection based on four widely-used open source datasets: OPV2V, V2XSet, V2V4Real and DAIR-V2X. Our research seeks to sustain high performance not only within the source domain but also across other unseen domains, achieved solely through training on source domain. To this end, we propose Cooperative Mixup Augmentation based Generalization (CMAG) to improve the model generalization capability by simulating the unseen cooperation, which is designed compactly for the domain gaps in cooperative perception. Furthermore, we propose a constraint for the regularization of the robust generalized feature representation learning: Cooperation Feature Consistency (CFC), which aligns the intermediately fused features of the generalized cooperation by CMAG and the early fused features of the original cooperation in source domain. Extensive experiments demonstrate that our approach achieves significant performance gains when generalizing to other unseen datasets while it also maintains strong performance on the source dataset.

arxiv情報

著者 Baolu Li,Zongzhe Xu,Jinlong Li,Xinyu Liu,Jianwu Fang,Xiaopeng Li,Hongkai Yu
発行日 2025-03-19 17:17:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | V2X-DG: Domain Generalization for Vehicle-to-Everything Cooperative Perception はコメントを受け付けていません

MotionStreamer: Streaming Motion Generation via Diffusion-based Autoregressive Model in Causal Latent Space

要約

このペーパーでは、テキストコンディショニングされたストリーミングモーション生成の課題に対処します。これにより、さまざまな長さの歴史的動きと着信テキストに基づいて、次の段階の人間のポーズを予測する必要があります。
既存の方法は、ストリーミングモーション生成を達成するのに苦労しています。たとえば、拡散モデルは事前に定義された運動長によって制約されますが、GPTベースの方法は、離散化された非因果性トークン化による応答と誤差の蓄積の問題に悩まされます。
これらの問題を解決するために、MotionsTreamerを提案します。MotionsStreamerは、継続的な因果潜在スペースを確率的自己回帰モデルに組み込んだ新しいフレームワークです。
連続的な潜伏は、離散化によって引き起こされる情報の損失を軽減し、長期の自己回帰生成中のエラーの蓄積を効果的に減少させます。
さらに、現在と履歴の動きの潜在性と履歴モーションの潜在性の間の時間的因果関係を確立することにより、我々のモデルは利用可能な情報を完全に利用して、正確なオンラインモーションデコードを実現します。
実験は、私たちの方法が既存のアプローチよりも優れていることを示しており、マルチラウンド生成、長期生成、動的運動構成など、より多くのアプリケーションを提供します。
プロジェクトページ:https://zju3dv.github.io/motionstreamer/

要約(オリジナル)

This paper addresses the challenge of text-conditioned streaming motion generation, which requires us to predict the next-step human pose based on variable-length historical motions and incoming texts. Existing methods struggle to achieve streaming motion generation, e.g., diffusion models are constrained by pre-defined motion lengths, while GPT-based methods suffer from delayed response and error accumulation problem due to discretized non-causal tokenization. To solve these problems, we propose MotionStreamer, a novel framework that incorporates a continuous causal latent space into a probabilistic autoregressive model. The continuous latents mitigate information loss caused by discretization and effectively reduce error accumulation during long-term autoregressive generation. In addition, by establishing temporal causal dependencies between current and historical motion latents, our model fully utilizes the available information to achieve accurate online motion decoding. Experiments show that our method outperforms existing approaches while offering more applications, including multi-round generation, long-term generation, and dynamic motion composition. Project Page: https://zju3dv.github.io/MotionStreamer/

arxiv情報

著者 Lixing Xiao,Shunlin Lu,Huaijin Pi,Ke Fan,Liang Pan,Yueer Zhou,Ziyong Feng,Xiaowei Zhou,Sida Peng,Jingbo Wang
発行日 2025-03-19 17:32:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | MotionStreamer: Streaming Motion Generation via Diffusion-based Autoregressive Model in Causal Latent Space はコメントを受け付けていません

Di$\mathtt{[M]}$O: Distilling Masked Diffusion Models into One-step Generator

要約

マスクされた拡散モデル(MDMS)は、強力な生成モデリング手法として浮上しています。
彼らの驚くべき結果にもかかわらず、彼らは通常、いくつかのステップでの遅い推論に苦しんでいます。
この論文では、di $ \ mathtt {[m]} $ oを提案します。これは、マスクされた拡散モデルをワンステップジェネレーターに蒸留する新しいアプローチです。
di $ \ mathtt {[m]} $ o 2つの重要な課題に対処します。(1)1段階の生成に中間ステップ情報を使用することの操作性。これは、補助モデルの助けを借りて「オンポリティフレームワーク」によるモデル出力ロジットを最適化するトークンレベルの分布マッチングを通じて解決します。
(2)初期分布におけるエントロピーの欠如。これは、教師のトレーニング分布と類似性を維持しながらランダム性を注入するトークン初期化戦略を通じて対処します。
di $ \ mathtt {[m]} $ oのクラス条件付きおよびテキストコンディショナル画像生成の両方に対する有効性を示し、推論時間を大幅に削減しながら、マルチステップの教師の出力に対して競争力のあるパフォーマンスを印象的に達成します。
私たちの知る限り、私たちはマスクされた拡散モデルのワンステップ蒸留を成功裏に達成した最初の人物であり、テキストからイメージの生成に個別の蒸留を適用し、効率的な生成モデリングのための新しいパスを開きます。

要約(オリジナル)

Masked Diffusion Models (MDMs) have emerged as a powerful generative modeling technique. Despite their remarkable results, they typically suffer from slow inference with several steps. In this paper, we propose Di$\mathtt{[M]}$O, a novel approach that distills masked diffusion models into a one-step generator. Di$\mathtt{[M]}$O addresses two key challenges: (1) the intractability of using intermediate-step information for one-step generation, which we solve through token-level distribution matching that optimizes model output logits by an ‘on-policy framework’ with the help of an auxiliary model; and (2) the lack of entropy in the initial distribution, which we address through a token initialization strategy that injects randomness while maintaining similarity to teacher training distribution. We show Di$\mathtt{[M]}$O’s effectiveness on both class-conditional and text-conditional image generation, impressively achieving performance competitive to multi-step teacher outputs while drastically reducing inference time. To our knowledge, we are the first to successfully achieve one-step distillation of masked diffusion models and the first to apply discrete distillation to text-to-image generation, opening new paths for efficient generative modeling.

arxiv情報

著者 Yuanzhi Zhu,Xi Wang,Stéphane Lathuilière,Vicky Kalogeiton
発行日 2025-03-19 17:36:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG | Di$\mathtt{[M]}$O: Distilling Masked Diffusion Models into One-step Generator はコメントを受け付けていません

FP4DiT: Towards Effective Floating Point Quantization for Diffusion Transformers

要約

拡散モデル(DM)は、テキストからイメージまでの視覚生成プロセスに革命をもたらしました。
ただし、DMSの大きな計算コストとモデルのフットプリントは、特にエッジデバイスでの実用的な展開を妨げます。
トレーニング後の量子化(PTQ)は、トレーニングや微調整を必要とせずにこれらの負担を軽減する軽量の方法です。
最近のDM PTQメソッドは、整数ベースのPTQでW4A8を達成しますが、2つの重要な制限は残ります。最初に、ほとんどの既存のDM PTQメソッドは、逆拡散XL、1.5以前の安定した拡散XLなどの古典的なDMを評価します。
第二に、整数(INT)量子化はDM PTQで普及していますが、ネットワークの重みと活性化の分布とうまく整合していませんが、浮動小数点量子化(FPQ)は依然として投資不足ですが、DITの低ビット設定での重量と活性化分布をよりよく調整する可能性があります。
これに応じて、FP4DITを紹介します。FP4DITは、FPQを活用してW4A6量子化を達成するPTQメソッドです。
具体的には、適応型の丸めPTQ技術を拡張して一般化して、FPQの重量量子化を適切に調整し、DITアクティベーションが入力パッチデータに依存し、堅牢なオンラインアクティベーション量子化技術が必要であることを実証します。
実験結果は、FP4DITがW4A6およびW4A8精度で整数ベースのPTQを上回り、PIXART-$ \ ALPHA $、PIXART-$ \ SIGMA $およびHUNYUANで説得力のある視覚コンテンツを生成することを示しています。

要約(オリジナル)

Diffusion Models (DM) have revolutionized the text-to-image visual generation process. However, the large computational cost and model footprint of DMs hinders practical deployment, especially on edge devices. Post-training quantization (PTQ) is a lightweight method to alleviate these burdens without the need for training or fine-tuning. While recent DM PTQ methods achieve W4A8 on integer-based PTQ, two key limitations remain: First, while most existing DM PTQ methods evaluate on classical DMs like Stable Diffusion XL, 1.5 or earlier, which use convolutional U-Nets, newer Diffusion Transformer (DiT) models like the PixArt series, Hunyuan and others adopt fundamentally different transformer backbones to achieve superior image synthesis. Second, integer (INT) quantization is prevailing in DM PTQ but doesn’t align well with the network weight and activation distribution, while Floating-Point Quantization (FPQ) is still under-investigated, yet it holds the potential to better align the weight and activation distributions in low-bit settings for DiT. In response, we introduce FP4DiT, a PTQ method that leverages FPQ to achieve W4A6 quantization. Specifically, we extend and generalize the Adaptive Rounding PTQ technique to adequately calibrate weight quantization for FPQ and demonstrate that DiT activations depend on input patch data, necessitating robust online activation quantization techniques. Experimental results demonstrate that FP4DiT outperforms integer-based PTQ at W4A6 and W4A8 precision and generates convincing visual content on PixArt-$\alpha$, PixArt-$\Sigma$ and Hunyuan in terms of several T2I metrics such as HPSv2 and CLIP.

arxiv情報

著者 Ruichen Chen,Keith G. Mills,Di Niu
発行日 2025-03-19 17:44:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | FP4DiT: Towards Effective Floating Point Quantization for Diffusion Transformers はコメントを受け付けていません

EgoDTM: Towards 3D-Aware Egocentric Video-Language Pretraining

要約

エゴセントリックビデオ言語の事前トレーニングには、ビデオ表現の学習が大幅に進歩しています。
人間は完全に3Dの世界と相互作用し、テキストベースの理解を超えて広がる空間的認識を開発します。
ただし、ほとんどの以前の作品は、1Dテキストや、本質的に3Dの理解を欠いている境界ボックスなどの2Dビジュアルキューから学習しています。
このギャップを埋めるために、大規模な3Dに認識されたビデオ事前トレーニングとビデオテキストの対照学習を通じて共同で訓練されたエゴセントリックの深さとテキスト認識モデルであるEgoDTMを紹介します。
EGODTMには、深度推定モデルによって生成された擬似深度マップから3D認識を効率的に学習するために、軽量の3D対応デコーダーが組み込まれています。
3D認識のビデオ事前化をさらに容易にするために、いくつかの基礎モデルを組織することにより、ハンドオブジェクトの視覚的な手がかりで元の短いキャプションを豊かにします。
広範な実験は、多様なダウンストリームタスクにわたるEgoDTMの優れたパフォーマンスを示しており、その優れた3Dに認識された視覚的理解を強調しています。
コードはhttps://github.com/xuboshen/egodtmでリリースされます。

要約(オリジナル)

Egocentric video-language pretraining has significantly advanced video representation learning. Humans perceive and interact with a fully 3D world, developing spatial awareness that extends beyond text-based understanding. However, most previous works learn from 1D text or 2D visual cues, such as bounding boxes, which inherently lack 3D understanding. To bridge this gap, we introduce EgoDTM, an Egocentric Depth- and Text-aware Model, jointly trained through large-scale 3D-aware video pretraining and video-text contrastive learning. EgoDTM incorporates a lightweight 3D-aware decoder to efficiently learn 3D-awareness from pseudo depth maps generated by depth estimation models. To further facilitate 3D-aware video pretraining, we enrich the original brief captions with hand-object visual cues by organically combining several foundation models. Extensive experiments demonstrate EgoDTM’s superior performance across diverse downstream tasks, highlighting its superior 3D-aware visual understanding. Our code will be released at https://github.com/xuboshen/EgoDTM.

arxiv情報

著者 Boshen Xu,Yuting Mei,Xinbi Liu,Sipeng Zheng,Qin Jin
発行日 2025-03-19 17:45:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | EgoDTM: Towards 3D-Aware Egocentric Video-Language Pretraining はコメントを受け付けていません

Toward task-driven satellite image super-resolution

要約

超解像度は、低解像度の観測から高解像度の画像を再構築することを目的としています。
深い学習で支えられた最先端のアプローチにより、優れた結果を得て、高い知覚品質の画像を生成できます。
ただし、再構築された詳細が実際のグラウンドトゥルース情報に近いかどうか、およびそれらが画像分析アルゴリズムのより価値のあるソースを構成するかどうかは不明のままです。
報告された研究では、後者の問題に対処し、自動画像分析に悪用できる高解像度画像を生成するのに適したタスク駆動型の方法で超解像度アルゴリズムを学習するための取り組みを提示します。
報告された最初の研究では、スーパー解像度の再構築アルゴリズムの評価に使用できるかどうかという点でコンピュータービジョンタスクを実行する既存のモデルを評価するための方法論的アプローチを提案し、タスク駆動型の方法でトレーニングします。
私たちは実験的研究で分析をサポートし、現実世界の超解像度の能力を前進させる適切なコンピュータービジョンタスクを選択するための強固な基盤を確立することを期待しています。

要約(オリジナル)

Super-resolution is aimed at reconstructing high-resolution images from low-resolution observations. State-of-the-art approaches underpinned with deep learning allow for obtaining outstanding results, generating images of high perceptual quality. However, it often remains unclear whether the reconstructed details are close to the actual ground-truth information and whether they constitute a more valuable source for image analysis algorithms. In the reported work, we address the latter problem, and we present our efforts toward learning super-resolution algorithms in a task-driven way to make them suitable for generating high-resolution images that can be exploited for automated image analysis. In the reported initial research, we propose a methodological approach for assessing the existing models that perform computer vision tasks in terms of whether they can be used for evaluating super-resolution reconstruction algorithms, as well as training them in a task-driven way. We support our analysis with experimental study and we expect it to establish a solid foundation for selecting appropriate computer vision tasks that will advance the capabilities of real-world super-resolution.

arxiv情報

著者 Maciej Ziaja,Pawel Kowaleczko,Daniel Kostrzewa,Nicolas Longépé,Michal Kawulok
発行日 2025-03-19 17:49:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Toward task-driven satellite image super-resolution はコメントを受け付けていません

Cube: A Roblox View of 3D Intelligence

要約

膨大な量のデータで訓練された基礎モデルは、テキスト、画像、オーディオ、ビデオのドメインで顕著な推論と生成機能を実証しています。
Robloxでの私たちの目標は、3Dオブジェクトやシーンの生成からアニメーションのリギングまで、オブジェクトの動作を説明するプログラマティックスクリプトを作成するまで、Robloxエクスペリエンスのあらゆる側面を生成する開発者をサポートできるモデルである3D Intelligenceのこのような基盤モデルを構築することです。
このような3Dファンデーションモデルの3つの重要な設計要件について説明し、そのようなモデルの構築に向けた最初のステップを提示します。
3D幾何学的形状がコアデータ型になると予想し、3D形状トークン剤のソリューションを説明します。
テキストから形への生成、形状からテキストの生成、テキスト間生成のためのアプリケーションでトークン化スキームをどのように使用できるかを示します。
これらのアプリケーションが既存の大規模な言語モデル(LLM)と協力して、シーン分析と推論を実行する方法を示します。
最後に、3Dインテリジェンスのための完全に統一された基礎モデルを構築するための道のりの概要を説明する議論で結論付けます。

要約(オリジナル)

Foundation models trained on vast amounts of data have demonstrated remarkable reasoning and generation capabilities in the domains of text, images, audio and video. Our goal at Roblox is to build such a foundation model for 3D intelligence, a model that can support developers in producing all aspects of a Roblox experience, from generating 3D objects and scenes to rigging characters for animation to producing programmatic scripts describing object behaviors. We discuss three key design requirements for such a 3D foundation model and then present our first step towards building such a model. We expect that 3D geometric shapes will be a core data type and describe our solution for 3D shape tokenizer. We show how our tokenization scheme can be used in applications for text-to-shape generation, shape-to-text generation and text-to-scene generation. We demonstrate how these applications can collaborate with existing large language models (LLMs) to perform scene analysis and reasoning. We conclude with a discussion outlining our path to building a fully unified foundation model for 3D intelligence.

arxiv情報

著者 Foundation AI Team,Kiran Bhat,Nishchaie Khanna,Karun Channa,Tinghui Zhou,Yiheng Zhu,Xiaoxia Sun,Charles Shang,Anirudh Sudarshan,Maurice Chu,Daiqing Li,Kangle Deng,Jean-Philippe Fauconnier,Tijmen Verhulsdonck,Maneesh Agrawala,Kayvon Fatahalian,Alexander Weiss,Christian Reiser,Ravi Kiran Chirravuri,Ravali Kandur,Alejandro Pelaez,Akash Garg,Michael Palleschi,Jessica Wang,Skylar Litz,Leon Liu,Anying Li,David Harmon,Derek Liu,Liangjun Feng,Denis Goupil,Lukas Kuczynski,Jihyun Yoon,Naveen Marri,Peiye Zhuang,Yinan Zhang,Brian Yin,Haomiao Jiang,Marcel van Workum,Thomas Lane,Bryce Erickson,Salil Pathare,Kyle Price,Anupam Singh,David Baszucki
発行日 2025-03-19 17:52:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Cube: A Roblox View of 3D Intelligence はコメントを受け付けていません

SlideChat: A Large Vision-Language Assistant for Whole-Slide Pathology Image Understanding

要約

計算病理学においてマルチモーダルラージランゲージモデル(MLLMS)が行った進展にもかかわらず、パッチレベルの分析に主に焦点を当て、スライドレベル全体で重要なコンテキスト情報が欠落しています。
大規模な命令データセットの欠如とスライド画像全体(WSI)のギガピクセルスケールは、重大な発達上の課題をもたらします。
このペーパーでは、ギガピクセルの全面画像を理解できる最初のビジョン言語アシスタントであるSlideChatを提示し、多様な病理学シナリオ全体で優れたマルチモーダルの会話機能と応答複雑な指導を示します。
その開発をサポートするために、4.2K WSIキャプションと複数のカテゴリを持つ176K VQAペアで構成されるWSIの最大の命令検索データセットであるSlideintructionを作成しました。
さらに、顕微鏡、診断などのさまざまな臨床設定でSlideChatの機能を評価するためにキャプションとVQAタスクを組み込んだマルチモーダルベンチマークであるSlideBenchを提案します。
一般的なMLLMおよび専門的なMLLMの両方と比較して、SlideChatは22のタスクのうち18で最先端のパフォーマンスを達成する特別な機能を示しています。
たとえば、Slidebench-VQA(TCGA)で81.17%、Slidebench-VQA(BCNB)で54.15%の全体的な精度を達成しました。
私たちのコード、データ、モデルは、https://uni-medical.github.io/slidechat.github.ioで公開されています。

要約(オリジナル)

Despite the progress made by multimodal large language models (MLLMs) in computational pathology, they remain limited by a predominant focus on patch-level analysis, missing essential contextual information at the whole-slide level. The lack of large-scale instruction datasets and the gigapixel scale of whole slide images (WSIs) pose significant developmental challenges. In this paper, we present SlideChat, the first vision-language assistant capable of understanding gigapixel whole-slide images, exhibiting excellent multimodal conversational capability and response complex instruction across diverse pathology scenarios. To support its development, we created SlideInstruction, the largest instruction-following dataset for WSIs consisting of 4.2K WSI captions and 176K VQA pairs with multiple categories. Furthermore, we propose SlideBench, a multimodal benchmark that incorporates captioning and VQA tasks to assess SlideChat’s capabilities in varied clinical settings such as microscopy, diagnosis. Compared to both general and specialized MLLMs, SlideChat exhibits exceptional capabilities achieving state-of-the-art performance on 18 of 22 tasks. For example, it achieved an overall accuracy of 81.17% on SlideBench-VQA (TCGA), and 54.15% on SlideBench-VQA (BCNB). Our code, data, and model is publicly accessible at https://uni-medical.github.io/SlideChat.github.io.

arxiv情報

著者 Ying Chen,Guoan Wang,Yuanfeng Ji,Yanjun Li,Jin Ye,Tianbin Li,Ming Hu,Rongshan Yu,Yu Qiao,Junjun He
発行日 2025-03-19 17:56:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | SlideChat: A Large Vision-Language Assistant for Whole-Slide Pathology Image Understanding はコメントを受け付けていません

TULIP: Towards Unified Language-Image Pretraining

要約

ClipやSiglipなどの画像テキストコントラストモデルの最近の成功にもかかわらず、これらのモデルは、カウント、深さの推定、細かい粒度のオブジェクト認識など、高忠実度の理解を必要とする視覚中心のタスクに苦労しています。
これらのモデルは、言語アラインメントを実行することにより、視覚的理解よりも高レベルのセマンティクスを優先し、イメージの理解を弱める傾向があります。
一方、ビジョン中心のモデルは視覚情報の処理に優れていますが、言語を理解するのに苦労し、言語主導のタスクの柔軟性を制限します。
この作業では、既存のクリップのようなモデルのオープンソースのドロップイン交換であるチューリップを紹介します。
私たちの方法は、生成データの増強、画像イメージとテキストテキストのコントラスト学習の強化、および画像/テキスト再構成の正規化を活用して、グローバルなセマンティックアライメントを維持しながら、きめ細かい視覚的特徴を学習します。
1Bを超えるパラメーターにスケーリングするアプローチは、複数のベンチマークにわたって既存の最先端の(SOTA)モデルを上回り、Imagenet-1Kで新しいSOTAゼロショットパフォーマンスを確立し、LIERの標準分類でRXRX1のRXRX1でSiglipを介したSiglipを介した$ 2 \ Times $拡張を提供します。
MMVPのSiglip。
コード/チェックポイントは、https://tulip-berkeley.github.ioで入手できます

要約(オリジナル)

Despite the recent success of image-text contrastive models like CLIP and SigLIP, these models often struggle with vision-centric tasks that demand high-fidelity image understanding, such as counting, depth estimation, and fine-grained object recognition. These models, by performing language alignment, tend to prioritize high-level semantics over visual understanding, weakening their image understanding. On the other hand, vision-focused models are great at processing visual information but struggle to understand language, limiting their flexibility for language-driven tasks. In this work, we introduce TULIP, an open-source, drop-in replacement for existing CLIP-like models. Our method leverages generative data augmentation, enhanced image-image and text-text contrastive learning, and image/text reconstruction regularization to learn fine-grained visual features while preserving global semantic alignment. Our approach, scaling to over 1B parameters, outperforms existing state-of-the-art (SOTA) models across multiple benchmarks, establishing a new SOTA zero-shot performance on ImageNet-1K, delivering up to a $2\times$ enhancement over SigLIP on RxRx1 in linear probing for few-shot classification, and improving vision-language models, achieving over $3\times$ higher scores than SigLIP on MMVP. Our code/checkpoints are available at https://tulip-berkeley.github.io

arxiv情報

著者 Zineng Tang,Long Lian,Seun Eisape,XuDong Wang,Roei Herzig,Adam Yala,Alane Suhr,Trevor Darrell,David M. Chan
発行日 2025-03-19 17:58:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG | TULIP: Towards Unified Language-Image Pretraining はコメントを受け付けていません