DiffRenderGAN: Addressing Training Data Scarcity in Deep Segmentation Networks for Quantitative Nanomaterial Analysis through Differentiable Rendering and Generative Modelling

要約

ナノマテリアルは、サイズ、形状、表面の特性などのパラメーターによって支配された特徴的な特性を示し、技術、生物、および環境の文脈にわたってアプリケーションと相互作用に批判的に影響を与えます。
これらの資料の正確な定量化と理解は、研究と革新を進めるために不可欠です。
この点で、自動化された洞察を可能にし、主観的な方法を正確な定量分析に置き換える強力なツールとして、深い学習セグメンテーションネットワークが浮上しています。
ただし、それらの有効性は、ナノ粒子の費用のかかるイメージングと手動注釈の労働集約的な性質のために、取得するのが難しい代表的な注釈付きデータセットに依存します。
これらの制限を克服するために、注釈付きの合成データを生成するように設計された新しい生成モデルであるDiffrenderganを紹介します。
Diffrenderganは、微分可能なレンダラーを生成的敵対的ネットワーク(GAN)フレームワークに統合することにより、テクスチャレンダリングパラメーターを最適化して、認定されていない実際の顕微鏡画像から現実的な注釈付きナノ粒子画像を生成します。
このアプローチは、手動介入の必要性を減らし、多様で現実的なデータを生成することにより、既存の合成データ方法と比較してセグメンテーションパフォーマンスを向上させます。
二酸化チタン(TIO $ _2 $)、二酸化シリコン(SIO $ _2 $)、シルバーナノワイヤ(AGNW)を含む複数のイオンおよび電子顕微鏡症例でテストされ、diffrenderganは合成データと実際のデータの間のギャップを橋渡しし、定量化と定量化を進め、
複雑なナノ材料システムの理解。

要約(オリジナル)

Nanomaterials exhibit distinctive properties governed by parameters such as size, shape, and surface characteristics, which critically influence their applications and interactions across technological, biological, and environmental contexts. Accurate quantification and understanding of these materials are essential for advancing research and innovation. In this regard, deep learning segmentation networks have emerged as powerful tools that enable automated insights and replace subjective methods with precise quantitative analysis. However, their efficacy depends on representative annotated datasets, which are challenging to obtain due to the costly imaging of nanoparticles and the labor-intensive nature of manual annotations. To overcome these limitations, we introduce DiffRenderGAN, a novel generative model designed to produce annotated synthetic data. By integrating a differentiable renderer into a Generative Adversarial Network (GAN) framework, DiffRenderGAN optimizes textural rendering parameters to generate realistic, annotated nanoparticle images from non-annotated real microscopy images. This approach reduces the need for manual intervention and enhances segmentation performance compared to existing synthetic data methods by generating diverse and realistic data. Tested on multiple ion and electron microscopy cases, including titanium dioxide (TiO$_2$), silicon dioxide (SiO$_2$)), and silver nanowires (AgNW), DiffRenderGAN bridges the gap between synthetic and real data, advancing the quantification and understanding of complex nanomaterial systems.

arxiv情報

著者 Dennis Possart,Leonid Mill,Florian Vollnhals,Tor Hildebrand,Peter Suter,Mathis Hoffmann,Jonas Utz,Daniel Augsburger,Mareike Thies,Mingxuan Wu,Fabian Wagner,George Sarau,Silke Christiansen,Katharina Breininger
発行日 2025-02-13 16:41:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cond-mat.mtrl-sci, cs.CV, cs.LG | DiffRenderGAN: Addressing Training Data Scarcity in Deep Segmentation Networks for Quantitative Nanomaterial Analysis through Differentiable Rendering and Generative Modelling はコメントを受け付けていません

Standardisation of Convex Ultrasound Data Through Geometric Analysis and Augmentation

要約

ヘルスケアでの超音波の適用により、多様性と重要性が向上しています。
他の医療イメージングのモダリティとは異なり、特にデータ駆動型アルゴリズムを備えたアプリケーションの場合、超音波研究開発は歴史的に遅れてきました。
超音波の重要な問題は、利用可能なさまざまなマシンの数とパラメーター設定の組み合わせの可能性があるため、画像の極端な変動性です。
これの1つの結果は、標準化されたベンチマークの超音波データセットの欠如です。
この記事で提案されている方法は、この混乱の問題を軽減するためのアプローチです。
この目的のために、超音波データスパースの問題が調べられ、新しい視点、アプローチ、および解決策が提案されています。
画像内の基礎となる超音波面の抽出を含み、環状のジオメトリを使用して表現します。
この方法論の適用が提案されています。これは、スキャンラインの抽出と凸面の線形化です。
提案された方法の堅牢性の検証は、プライベートデータとパブリックデータの両方で実行されます。
推定された環状パラメーターを使用した変形の影響と増強性の反転性も研究されています。
キーワード:超音波、環状セクター、増強、線形化。

要約(オリジナル)

The application of ultrasound in healthcare has seen increased diversity and importance. Unlike other medical imaging modalities, ultrasound research and development has historically lagged, particularly in the case of applications with data-driven algorithms. A significant issue with ultrasound is the extreme variability of the images, due to the number of different machines available and the possible combination of parameter settings. One outcome of this is the lack of standardised and benchmarking ultrasound datasets. The method proposed in this article is an approach to alleviating this issue of disorganisation. For this purpose, the issue of ultrasound data sparsity is examined and a novel perspective, approach, and solution is proposed; involving the extraction of the underlying ultrasound plane within the image and representing it using annulus sector geometry. An application of this methodology is proposed, which is the extraction of scan lines and the linearisation of convex planes. Validation of the robustness of the proposed method is performed on both private and public data. The impact of deformation and the invertibility of augmentation using the estimated annulus sector parameters is also studied. Keywords: Ultrasound, Annulus Sector, Augmentation, Linearisation.

arxiv情報

著者 Alistair Weld,Giovanni Faoro,Luke Dixon,Sophie Camp,Arianna Menciassi,Stamatia Giannarou
発行日 2025-02-13 16:45:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Standardisation of Convex Ultrasound Data Through Geometric Analysis and Augmentation はコメントを受け付けていません

Prior-Constrained Association Learning for Fine-Grained Generalized Category Discovery

要約

このホワイトペーパーでは、一般化されたカテゴリ発見(GCD)に対処します。これは、既知の各カテゴリからのラベル付きインスタンスの助けを借りて、潜在的に既知または未知のカテゴリからクラスタリングされていないデータをクラスタリングするタスクです。
従来の半教師の学習と比較して、GCDはラベル付きデータに表示されない新しいカテゴリからのものである可能性があるため、GCDはより困難です。
現在の最先端の方法は、通常、自己抵抗によって支援されたパラメトリック分類器を学習します。
効果的であるが、これらの方法では、表現学習とカテゴリの発見に不可欠なクラス固有のセマンティクスを発見するために、クロスインスタンスの類似性を使用していません。
この論文では、協会ベースのパラダイムを再訪し、データ内のセマンティックリレーションをキャプチャして学習するための以前の制約のある関連学習方法を提案します。
特に、既知のカテゴリからのラベル付きデータは、非標識データの関連付けに一意の事前を提供します。
事前のクラスタリング後の洗練としてのみを採用する以前の方法とは異なり、我々は前のプロセスに完全に組み込まれ、信頼できるグループ化の結果に関連性を制約させます。
推定されたセマンティックグループは、ノンパラメトリックプロトタイプのコントラストを通じて利用され、表現学習を強化します。
パラメトリック分類とノンパラメトリック分類の両方のさらなる組み合わせは、互いに補完され、既存の方法を大幅に上回るモデルにつながります。
複数のGCDベンチマークでは、広範な実験を実行し、提案された方法の有効性を検証します。

要約(オリジナル)

This paper addresses generalized category discovery (GCD), the task of clustering unlabeled data from potentially known or unknown categories with the help of labeled instances from each known category. Compared to traditional semi-supervised learning, GCD is more challenging because unlabeled data could be from novel categories not appearing in labeled data. Current state-of-the-art methods typically learn a parametric classifier assisted by self-distillation. While being effective, these methods do not make use of cross-instance similarity to discover class-specific semantics which are essential for representation learning and category discovery. In this paper, we revisit the association-based paradigm and propose a Prior-constrained Association Learning method to capture and learn the semantic relations within data. In particular, the labeled data from known categories provides a unique prior for the association of unlabeled data. Unlike previous methods that only adopts the prior as a pre or post-clustering refinement, we fully incorporate the prior into the association process, and let it constrain the association towards a reliable grouping outcome. The estimated semantic groups are utilized through non-parametric prototypical contrast to enhance the representation learning. A further combination of both parametric and non-parametric classification complements each other and leads to a model that outperforms existing methods by a significant margin. On multiple GCD benchmarks, we perform extensive experiments and validate the effectiveness of our proposed method.

arxiv情報

著者 Menglin Wang,Zhun Zhong,Xiaojin Gong
発行日 2025-02-13 17:13:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Prior-Constrained Association Learning for Fine-Grained Generalized Category Discovery はコメントを受け付けていません

When and How Does CLIP Enable Domain and Compositional Generalization?

要約

クリップのような対照的なビジョン言語モデルの顕著な一般化パフォーマンスは、多くの場合、トレーニング分布の多様性に起因します。
ただし、重要な質問は未回答のままです。ドメインの多様な混合物(ドメイン一般化)で訓練された場合、クリップは完全に見えないドメインに一般化できますか?
部分的に見られたドメイン内の目に見えないクラス(構成一般化)に一般化できますか?
そのような一般化に影響する要因は何ですか?
これらの質問に答えるために、制御されたドメインの多様性とオブジェクトクラスの露出を備えた体系的に構築されたトレーニング分布のクリップモデルをトレーニングしました。
私たちの実験は、ドメインの多様性がドメインと構成の一般化の両方に不可欠であることを示していますが、トレーニング分布にテストドメインの準最適なサブセットが含まれている場合、組成の一般化はドメイン一般化よりも驚くほど弱くなる可能性があります。
データ中心および機械的分析を通じて、一般化が成功するには、中間層と共有回路ですでに共有表現を学習する必要があることがわかります。

要約(オリジナル)

The remarkable generalization performance of contrastive vision-language models like CLIP is often attributed to the diversity of their training distributions. However, key questions remain unanswered: Can CLIP generalize to an entirely unseen domain when trained on a diverse mixture of domains (domain generalization)? Can it generalize to unseen classes within partially seen domains (compositional generalization)? What factors affect such generalization? To answer these questions, we trained CLIP models on systematically constructed training distributions with controlled domain diversity and object class exposure. Our experiments show that domain diversity is essential for both domain and compositional generalization, yet compositional generalization can be surprisingly weaker than domain generalization when the training distribution contains a suboptimal subset of the test domain. Through data-centric and mechanistic analyses, we find that successful generalization requires learning of shared representations already in intermediate layers and shared circuitry.

arxiv情報

著者 Elias Kempf,Simon Schrodi,Max Argus,Thomas Brox
発行日 2025-02-13 17:21:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG | When and How Does CLIP Enable Domain and Compositional Generalization? はコメントを受け付けていません

SQ-GAN: Semantic Image Communications Using Masked Vector Quantization

要約

この作業では、セマンティック/タスク指向の通信の画像圧縮を最適化する生成モデルを統合する新しいアプローチである、セマンティックマスクされたVQ-Gan(SQ-Gan)を紹介します。
SQ-Ganは、既製のセマンティックセマンティックセグメンテーションと、特別に開発された新しいセマンティックコンディショニング済み適応マスクモジュール(SAMM)を使用して、画像の意味的に重要な機能を選択的にエンコードします。
SQ-Ganは、ピクセルあたりビットで発現する極端な低圧縮速度で、知覚品質とセマンティックセグメンテーションの再構築画像の知覚品質とセマンティックセグメンテーションの精度を含む、複数のメトリック全体でJPEG2000やBPGなどの最先端の画像圧縮スキームを上回ります。

要約(オリジナル)

This work introduces Semantically Masked VQ-GAN (SQ-GAN), a novel approach integrating generative models to optimize image compression for semantic/task-oriented communications. SQ-GAN employs off-the-shelf semantic semantic segmentation and a new specifically developed semantic-conditioned adaptive mask module (SAMM) to selectively encode semantically significant features of the images. SQ-GAN outperforms state-of-the-art image compression schemes such as JPEG2000 and BPG across multiple metrics, including perceptual quality and semantic segmentation accuracy on the post-decoding reconstructed image, at extreme low compression rates expressed in bits per pixel.

arxiv情報

著者 Francesco Pezone,Sergio Barbarossa,Giuseppe Caire
発行日 2025-02-13 17:35:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, eess.IV | SQ-GAN: Semantic Image Communications Using Masked Vector Quantization はコメントを受け付けていません

SteROI-D: System Design and Mapping for Stereo Depth Inference on Regions of Interest

要約

機械学習アルゴリズムにより、高品質のステレオ深度推定は、拡張および仮想現実(AR/VR)デバイスで実行されます。
ただし、フル画像処理スタック全体でのエネルギー消費量は、ステレオ深度アルゴリズムがバッテリー制限デバイスで効果的に実行されるのを防ぎます。
このペーパーでは、マッピング方法論と組み合わせた完全なステレオ深度システムであるSteroi-Dを紹介します。
Steroi-Dは、エネルギーを節約するために、システムレベルで地域の地域(ROI)と時間的スパースを悪用します。
Steroi-Dの柔軟で不均一なコンピューティングファブリックは、多様なROIをサポートします。
重要なことに、動的なROIを効果的に処理するための体系的なマッピング方法論を導入し、それによりエネルギー節約を最大化することです。
これらの手法を使用して、当社の28NMプロトタイプSteroi-D設計は、ベースラインASICと比較して最大4.35倍のシステムエネルギーを削減します。

要約(オリジナル)

Machine learning algorithms have enabled high quality stereo depth estimation to run on Augmented and Virtual Reality (AR/VR) devices. However, high energy consumption across the full image processing stack prevents stereo depth algorithms from running effectively on battery-limited devices. This paper introduces SteROI-D, a full stereo depth system paired with a mapping methodology. SteROI-D exploits Region-of-Interest (ROI) and temporal sparsity at the system level to save energy. SteROI-D’s flexible and heterogeneous compute fabric supports diverse ROIs. Importantly, we introduce a systematic mapping methodology to effectively handle dynamic ROIs, thereby maximizing energy savings. Using these techniques, our 28nm prototype SteROI-D design achieves up to 4.35x reduction in total system energy compared to a baseline ASIC.

arxiv情報

著者 Jack Erhardt,Ziang Li,Reid Pinkham,Andrew Berkovich,Zhengya Zhang
発行日 2025-02-13 17:39:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AR, cs.CV | SteROI-D: System Design and Mapping for Stereo Depth Inference on Regions of Interest はコメントを受け付けていません

Long-Term TalkingFace Generation via Motion-Prior Conditional Diffusion Model

要約

条件付き拡散モデルの最近の進歩により、現実的なトーキングフェイスビデオを生成することが有望であることが示されていますが、一貫したヘッドの動き、同期した表情、および長期にわたる正確なリップ同期を達成することに課題があります。
これらに対処するために、\ textbf {m} otion-priors \ textbf {c} onditional \ textbf {d} iffusion \ textbf {m} odel(\ textbf {mcdm})を紹介します。
モーション予測を強化し、時間的一貫性を確保するため。
モデルは、3つの重要な要素で構成されています。(1)履歴フレームとアイデンティティとコンテキストを保持するための参照フレームを組み込んだアーカイブクリップモーション優先権。
(2)頭の動き、唇同期、および表現の正確な予測のためにマルチモーダル因果関係をキャプチャする現在のクリップ運動拡散モデル。
(3)モーション機能を動的に保存および更新することにより、エラーの蓄積を軽減するメモリ効率の高い時間的注意メカニズム。
また、10の言語にわたって200時間以上の映像の多言語コレクションである\ textbf {talkingface-wild}データセットをリリースします。
実験結果は、長期的な話し方フェイス生成のアイデンティティと運動の継続性を維持する上でMCDMの有効性を示しています。
コード、モデル、およびデータセットが公開されます。

要約(オリジナル)

Recent advances in conditional diffusion models have shown promise for generating realistic TalkingFace videos, yet challenges persist in achieving consistent head movement, synchronized facial expressions, and accurate lip synchronization over extended generations. To address these, we introduce the \textbf{M}otion-priors \textbf{C}onditional \textbf{D}iffusion \textbf{M}odel (\textbf{MCDM}), which utilizes both archived and current clip motion priors to enhance motion prediction and ensure temporal consistency. The model consists of three key elements: (1) an archived-clip motion-prior that incorporates historical frames and a reference frame to preserve identity and context; (2) a present-clip motion-prior diffusion model that captures multimodal causality for accurate predictions of head movements, lip sync, and expressions; and (3) a memory-efficient temporal attention mechanism that mitigates error accumulation by dynamically storing and updating motion features. We also release the \textbf{TalkingFace-Wild} dataset, a multilingual collection of over 200 hours of footage across 10 languages. Experimental results demonstrate the effectiveness of MCDM in maintaining identity and motion continuity for long-term TalkingFace generation. Code, models, and datasets will be publicly available.

arxiv情報

著者 Fei Shen,Cong Wang,Junyao Gao,Qin Guo,Jisheng Dang,Jinhui Tang,Tat-Seng Chua
発行日 2025-02-13 17:50:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Long-Term TalkingFace Generation via Motion-Prior Conditional Diffusion Model はコメントを受け付けていません

Locate Anything on Earth: Advancing Open-Vocabulary Object Detection for Remote Sensing Community

要約

オブジェクトの検出、特にオープンボキャブラリーオブジェクトの検出は、環境監視、自然災害評価、土地利用計画など、地球科学に重要な役割を果たします。
ただし、主に自然世界の画像で訓練された既存のオープンボキャブラリー検出器は、重要なデータドメインギャップのためにリモートセンシング画像に一般化するのに苦労しています。
したがって、このペーパーは、リモートセンシングコミュニティでのオープンボキャブラリーオブジェクト検出の開発を進めることを目的としています。
これを達成するために、私たちはまず、地球上の新しい概念を検出することを目的として、地球上の何かを見つけるようにタスクを再定式化します。
次に、幅広いカテゴリカバレッジを備えた最初の大規模リモートセンシングオブジェクト検出データセットであるLAE-1Mを作成する最大10個のリモートセンシングデータセットを収集、自動解決、統合するLAE-Labelエンジンを開発しました。
LAE-1Mを使用して、動的語彙構造(DVC)および視覚誘導テキストプロンプト学習(VISGT)モジュールを特徴とするLAEタスクの最初のオープンボキャブラリーファンデーションオブジェクト検出器であるLae-Dinoモデルをさらに提案して訓練します。
DVCは、各トレーニングバッチの語彙を動的に構築し、Visgtは視覚的な機能をセマンティックスペースにマッピングし、テキスト機能を強化します。
確立されたリモートセンシングベンチマークDior、DoTAV2.0、および新しく導入された80クラスのLAE-80Cベンチマークに関する実験を包括的に実施しています。
結果は、LAE-1Mデータセットの利点とLae-Dinoメソッドの有効性を示しています。

要約(オリジナル)

Object detection, particularly open-vocabulary object detection, plays a crucial role in Earth sciences, such as environmental monitoring, natural disaster assessment, and land-use planning. However, existing open-vocabulary detectors, primarily trained on natural-world images, struggle to generalize to remote sensing images due to a significant data domain gap. Thus, this paper aims to advance the development of open-vocabulary object detection in remote sensing community. To achieve this, we first reformulate the task as Locate Anything on Earth (LAE) with the goal of detecting any novel concepts on Earth. We then developed the LAE-Label Engine which collects, auto-annotates, and unifies up to 10 remote sensing datasets creating the LAE-1M – the first large-scale remote sensing object detection dataset with broad category coverage. Using the LAE-1M, we further propose and train the novel LAE-DINO Model, the first open-vocabulary foundation object detector for the LAE task, featuring Dynamic Vocabulary Construction (DVC) and Visual-Guided Text Prompt Learning (VisGT) modules. DVC dynamically constructs vocabulary for each training batch, while VisGT maps visual features to semantic space, enhancing text features. We comprehensively conduct experiments on established remote sensing benchmark DIOR, DOTAv2.0, as well as our newly introduced 80-class LAE-80C benchmark. Results demonstrate the advantages of the LAE-1M dataset and the effectiveness of the LAE-DINO method.

arxiv情報

著者 Jiancheng Pan,Yanxing Liu,Yuqian Fu,Muyuan Ma,Jiahao Li,Danda Pani Paudel,Luc Van Gool,Xiaomeng Huang
発行日 2025-02-13 18:01:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Locate Anything on Earth: Advancing Open-Vocabulary Object Detection for Remote Sensing Community はコメントを受け付けていません

EmbodiedBench: Comprehensive Benchmarking Multi-modal Large Language Models for Vision-Driven Embodied Agents

要約

具体化されたエージェントを作成するためにマルチモーダルの大手言語モデル(MLLM)を活用すると、実際のタスクに取り組むための有望な道が提供されます。
言語中心の具体化されたエージェントはかなりの注目を集めていますが、MLLMベースの具体化されたエージェントは、包括的な評価フレームワークがないため、既に採用されていないままです。
このギャップを埋めるために、ビジョン駆動型の具体化されたエージェントを評価するために設計された広範なベンチマークであるEmbodiedBenchを紹介します。
具体化されたベンチ機能:(1)高レベルのセマンティックタスク(家庭)から原子作用(ナビゲーションや操作など)を含む低レベルのタスクに至るまで、4つの環境にわたる1,128のテストタスクの多様なセット。
(2)Commonsenseの推論、複雑な指導の理解、空間認識、視覚認識、長期計画などの重要なエージェント機能を評価する6つの細心の注意を払ってキュレーションされたサブセット。
広範な実験を通じて、EmbodiedBench内の13の主要な独自およびオープンソースMLLMを評価しました。
私たちの調査結果は、MLLMSが高レベルのタスクで優れているが、低レベルの操作に苦労していることを明らかにしています。
EmbodiedBenchは、既存の課題を強調するだけでなく、MLLMベースの具体化されたエージェントを進めるための貴重な洞察を提供する多面的な標準化された評価プラットフォームを提供します。
私たちのコードは、https://embodiedbench.github.ioで入手できます。

要約(オリジナル)

Leveraging Multi-modal Large Language Models (MLLMs) to create embodied agents offers a promising avenue for tackling real-world tasks. While language-centric embodied agents have garnered substantial attention, MLLM-based embodied agents remain underexplored due to the lack of comprehensive evaluation frameworks. To bridge this gap, we introduce EmbodiedBench, an extensive benchmark designed to evaluate vision-driven embodied agents. EmbodiedBench features: (1) a diverse set of 1,128 testing tasks across four environments, ranging from high-level semantic tasks (e.g., household) to low-level tasks involving atomic actions (e.g., navigation and manipulation); and (2) six meticulously curated subsets evaluating essential agent capabilities like commonsense reasoning, complex instruction understanding, spatial awareness, visual perception, and long-term planning. Through extensive experiments, we evaluated 13 leading proprietary and open-source MLLMs within EmbodiedBench. Our findings reveal that: MLLMs excel at high-level tasks but struggle with low-level manipulation, with the best model, GPT-4o, scoring only 28.9% on average. EmbodiedBench provides a multifaceted standardized evaluation platform that not only highlights existing challenges but also offers valuable insights to advance MLLM-based embodied agents. Our code is available at https://embodiedbench.github.io.

arxiv情報

著者 Rui Yang,Hanyang Chen,Junyu Zhang,Mark Zhao,Cheng Qian,Kangrui Wang,Qineng Wang,Teja Venkat Koripella,Marziyeh Movahedi,Manling Li,Heng Ji,Huan Zhang,Tong Zhang
発行日 2025-02-13 18:11:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV | EmbodiedBench: Comprehensive Benchmarking Multi-modal Large Language Models for Vision-Driven Embodied Agents はコメントを受け付けていません

Sa2VA: Marrying SAM2 with LLaVA for Dense Grounded Understanding of Images and Videos

要約

この作品は、画像とビデオの両方を密集した理解のための最初の統一モデルであるSA2VAを示しています。
多くの場合、特定のモダリティやタスクに限定される既存のマルチモーダル大型言語モデルとは異なり、SA2VAは、セグメンテーションや会話の紹介など、最小限のワンショット命令調整を含む幅広い画像およびビデオタスクをサポートします。
SA2VAは、基礎ビデオセグメンテーションモデルであるSAM-2を、高度なビジョン言語モデルであるLlavaと組み合わせて、テキスト、画像、ビデオを共有LLMトークンスペースに統合します。
LLMを使用して、SA2VAは、SAM-2を正確なマスクの生成に導く命令トークンを生成し、静的視覚コンテンツと動的視覚コンテンツの両方の接地されたマルチモーダルの理解を可能にします。
さらに、モデルのパフォーマンスを高めるように設計された複雑なビデオシーンに72Kを超えるオブジェクト式を含む自動ラベルデータセットであるRef-Savを紹介します。
また、複雑な環境でのビデオオブジェクトセグメンテーションを参照するベンチマークに、REF-SAVデータセットの2Kビデオオブジェクトを手動で検証します。
実験は、SA2VAが複数のタスク、特にビデオオブジェクトセグメンテーションを参照する際に最先端のタスクを達成し、複雑な現実世界のアプリケーションの可能性を強調することを示しています。

要約(オリジナル)

This work presents Sa2VA, the first unified model for dense grounded understanding of both images and videos. Unlike existing multi-modal large language models, which are often limited to specific modalities and tasks, Sa2VA supports a wide range of image and video tasks, including referring segmentation and conversation, with minimal one-shot instruction tuning. Sa2VA combines SAM-2, a foundation video segmentation model, with LLaVA, an advanced vision-language model, and unifies text, image, and video into a shared LLM token space. Using the LLM, Sa2VA generates instruction tokens that guide SAM-2 in producing precise masks, enabling a grounded, multi-modal understanding of both static and dynamic visual content. Additionally, we introduce Ref-SAV, an auto-labeled dataset containing over 72k object expressions in complex video scenes, designed to boost model performance. We also manually validate 2k video objects in the Ref-SAV datasets to benchmark referring video object segmentation in complex environments. Experiments show that Sa2VA achieves state-of-the-art across multiple tasks, particularly in referring video object segmentation, highlighting its potential for complex real-world applications.

arxiv情報

著者 Haobo Yuan,Xiangtai Li,Tao Zhang,Zilong Huang,Shilin Xu,Shunping Ji,Yunhai Tong,Lu Qi,Jiashi Feng,Ming-Hsuan Yang
発行日 2025-02-13 18:14:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Sa2VA: Marrying SAM2 with LLaVA for Dense Grounded Understanding of Images and Videos はコメントを受け付けていません