StableMamba: Distillation-free Scaling of Large SSMs for Images and Videos

要約

S4で例示された状態空間モデル(SSM)は、状態空間技術を深い学習に統合することにより、新しいコンテキストモデリング方法を導入しました。
ただし、データに依存しないマトリックスのため、グローバルコンテキストモデリングに苦労しています。
MAMBAモデルは、特に長いシーケンスに対して、S6選択的スキャンアルゴリズムを介してデータ依存バリアントを使用してこれに対処し、コンテキストモデリングを強化しました。
ただし、MAMBAベースのアーキテクチャは、視力アプリケーションの大きな制限であるパラメーターの数に関して拡張することが困難です。
このペーパーでは、知識の蒸留などの追加手法を必要とせずに、画像分類とアクション認識のための大規模SSMのスケーラビリティの問題について説明します。
Mambaベースと注意ベースのモデルの明確な特性を分析し、スケーラビリティ、堅牢性、パフォーマンスを向上させるMamba-Attention Interleavedアーキテクチャを提案します。
安定した効率的なインターリーブアーキテクチャが、画像やビデオのMAMBAベースのアーキテクチャのスケーラビリティの問題を解決し、JPEG圧縮などの一般的なアーティファクトに対する堅牢性を高めることを実証します。
ImagENET-1K、Kinetics-400、およびSomething-hind-v2ベンチマークに関する徹底的な評価は、最新のMambaベースのアーキテクチャの精度が最大$+1.7ドルであることを示しています。

要約(オリジナル)

State-space models (SSMs), exemplified by S4, have introduced a novel context modeling method by integrating state-space techniques into deep learning. However, they struggle with global context modeling due to their data-independent matrices. The Mamba model addressed this with data-dependent variants via the S6 selective-scan algorithm, enhancing context modeling, especially for long sequences. However, Mamba-based architectures are difficult to scale with respect to the number of parameters, which is a major limitation for vision applications. This paper addresses the scalability issue of large SSMs for image classification and action recognition without requiring additional techniques like knowledge distillation. We analyze the distinct characteristics of Mamba-based and Attention-based models, proposing a Mamba-Attention interleaved architecture that enhances scalability, robustness, and performance. We demonstrate that the stable and efficient interleaved architecture resolves the scalability issue of Mamba-based architectures for images and videos and increases robustness to common artifacts like JPEG compression. Our thorough evaluation on the ImageNet-1K, Kinetics-400 and Something-Something-v2 benchmarks demonstrates that our approach improves the accuracy of state-of-the-art Mamba-based architectures by up to $+1.7$.

arxiv情報

著者 Hamid Suleman,Syed Talal Wasim,Muzammal Naseer,Juergen Gall
発行日 2025-03-27 16:45:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | StableMamba: Distillation-free Scaling of Large SSMs for Images and Videos はコメントを受け付けていません

CMED: A Child Micro-Expression Dataset

要約

微小発現は、隠すのが難しい短い感情のバーストです。
子どもたちの検出は、心理療法士がより良い治療を実施するのを支援するための重要な手がかりです。
しかし、微小発現の検出に関する既存の研究は、子供の特性とその表現が異なる成人に焦点を当てています。
研究の欠如は、予測可能性と制御可能性の欠如のために子供の表情を捉えることがはるかに困難であるため、子供ベースの微小発現データセットの欠如の直接的な結果です。
この研究は、この種の最初の子どもの微小微小発現ビデオのデータセットを、著者の知識の最高の状態にまとめます。
データセットは、ビデオ会議ソフトウェアを使用してワイルドでキャプチャされます。
このデータセットにより、成人と子供の微小発現の主要な機能と違いを探ることができます。
この研究では、手作業で作成された学習ベースのアプローチで構成される3つのアプローチを使用して、小児の微小発現の自動スポッティングと認識のベースラインも確立しています。

要約(オリジナル)

Micro-expressions are short bursts of emotion that are difficult to hide. Their detection in children is an important cue to assist psychotherapists in conducting better therapy. However, existing research on the detection of micro-expressions has focused on adults, whose expressions differ in their characteristics from those of children. The lack of research is a direct consequence of the lack of a child-based micro-expressions dataset as it is much more challenging to capture children’s facial expressions due to the lack of predictability and controllability. This study compiles a dataset of spontaneous child micro-expression videos, the first of its kind, to the best of the authors knowledge. The dataset is captured in the wild using video conferencing software. This dataset enables us to then explore key features and differences between adult and child micro-expressions. This study also establishes a baseline for the automated spotting and recognition of micro-expressions in children using three approaches comprising of hand-created and learning-based approaches.

arxiv情報

著者 Nikin~Matharaarachchi,Muhammad~Fermi Pasha,Sonya~Coleman,Kah PengWong
発行日 2025-03-27 16:55:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | CMED: A Child Micro-Expression Dataset はコメントを受け付けていません

RapidPoseTriangulation: Multi-view Multi-person Whole-body Human Pose Triangulation in a Millisecond

要約

マルチビューイメージングとポーズ推定の統合は、コンピュータービジョンアプリケーションの大きな進歩を表し、人間の動きと相互作用を理解するための新しい可能性を提供します。
この作業は、速い三角速度と優れた一般化機能に焦点を当てたマルチビューマルチパーソンポーズ推定を改善する新しいアルゴリズムを提示します。
このアプローチは、全身のポーズ推定にまで及び、顔の表情から複数の個人や視点にわたる指の動きまで詳細を捉えています。
異なる設定への適応性は、目に見えないデータセットと構成全体の強力なパフォーマンスを通じて実証されています。
この分野でのさらなる進捗をサポートするために、この作業はすべて公開されています。

要約(オリジナル)

The integration of multi-view imaging and pose estimation represents a significant advance in computer vision applications, offering new possibilities for understanding human movement and interactions. This work presents a new algorithm that improves multi-view multi-person pose estimation, focusing on fast triangulation speeds and good generalization capabilities. The approach extends to whole-body pose estimation, capturing details from facial expressions to finger movements across multiple individuals and viewpoints. Adaptability to different settings is demonstrated through strong performance across unseen datasets and configurations. To support further progress in this field, all of this work is publicly accessible.

arxiv情報

著者 Daniel Bermuth,Alexander Poeppel,Wolfgang Reif
発行日 2025-03-27 16:57:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | RapidPoseTriangulation: Multi-view Multi-person Whole-body Human Pose Triangulation in a Millisecond はコメントを受け付けていません

Progressive Rendering Distillation: Adapting Stable Diffusion for Instant Text-to-Mesh Generation without 3D Data

要約

わずか数秒でテキストプロンプトから高品質の3Dメッシュを生成できるモデルを取得することが非常に望ましいです。
最近の試みは、安定した拡散(SD)などの事前に訓練されたテキストから画像間拡散モデルを3D表現のジェネレーター(トリプランなど)に採用していますが、十分な高品質の3Dトレーニングデータがないために品質が低いことがよくあります。
データ不足の克服を目指して、進歩的なレンダリング蒸留(PRD)と呼ばれる新しいトレーニングスキームを提案し、マルチビュー拡散モデルを蒸留し、SDをネイティブ3Dジェネレーターに適応させることにより、3Dグラウンドトゥルースの必要性を排除します。
トレーニングの各反復で、PRDはU-NETを使用して、数ステップでランダムノイズから潜在性を徐々に除去し、各ステップで除去された潜在性を3D出力に解読します。
MVDREAMやRichDreamerを含むマルチビュー拡散モデルは、SDとジョイントで使用され、スコアの蒸留を通じてテキスト親和なテクスチャと3D出力にジオメトリを蒸留します。
PRDは3Dのグラウンドトゥルースなしでトレーニングをサポートしているため、トレーニングデータを簡単に拡大し、創造的な概念を備えた挑戦的なテキストプロンプトの生成品質を向上させることができます。
一方、PRDは、わずか数ステップで生成モデルの推論速度を加速することができます。
PRDを使用すると、Triplaneジェネレーター、すなわちTriplaneturboをトレーニングします。これは、SDをトリプラン生成に適応させるために$ 2.5 \%$トレーニング可能なパラメーターを追加します。
Triplaneturboは、効率と品質の両方で、以前のテキストから3Dジェネレーターよりも優れています。
具体的には、1.2秒で高品質の3Dメッシュを生成し、挑戦的なテキスト入力のためによく一般化できます。
このコードは、https://github.com/theericma/triplaneturboで入手できます。

要約(オリジナル)

It is highly desirable to obtain a model that can generate high-quality 3D meshes from text prompts in just seconds. While recent attempts have adapted pre-trained text-to-image diffusion models, such as Stable Diffusion (SD), into generators of 3D representations (e.g., Triplane), they often suffer from poor quality due to the lack of sufficient high-quality 3D training data. Aiming at overcoming the data shortage, we propose a novel training scheme, termed as Progressive Rendering Distillation (PRD), eliminating the need for 3D ground-truths by distilling multi-view diffusion models and adapting SD into a native 3D generator. In each iteration of training, PRD uses the U-Net to progressively denoise the latent from random noise for a few steps, and in each step it decodes the denoised latent into 3D output. Multi-view diffusion models, including MVDream and RichDreamer, are used in joint with SD to distill text-consistent textures and geometries into the 3D outputs through score distillation. Since PRD supports training without 3D ground-truths, we can easily scale up the training data and improve generation quality for challenging text prompts with creative concepts. Meanwhile, PRD can accelerate the inference speed of the generation model in just a few steps. With PRD, we train a Triplane generator, namely TriplaneTurbo, which adds only $2.5\%$ trainable parameters to adapt SD for Triplane generation. TriplaneTurbo outperforms previous text-to-3D generators in both efficiency and quality. Specifically, it can produce high-quality 3D meshes in 1.2 seconds and generalize well for challenging text input. The code is available at https://github.com/theEricMa/TriplaneTurbo.

arxiv情報

著者 Zhiyuan Ma,Xinyue Liang,Rongyuan Wu,Xiangyu Zhu,Zhen Lei,Lei Zhang
発行日 2025-03-27 16:59:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.GR | Progressive Rendering Distillation: Adapting Stable Diffusion for Instant Text-to-Mesh Generation without 3D Data はコメントを受け付けていません

AMA-SAM: Adversarial Multi-Domain Alignment of Segment Anything Model for High-Fidelity Histology Nuclei Segmentation

要約

組織病理学の画像における細胞核の正確なセグメンテーションは、多数の生物医学研究と臨床応用に不可欠です。
ただし、既存の細胞核セグメンテーション法は、単一のデータセット(つまり、一次ドメイン)のみを考慮し、多様なソース(つまり、補助ドメイン)からの補足データを活用して、過剰適合とパフォーマンスを強化することを無視します。
複数のデータセットを組み込むと、過剰適合が軽減される可能性がありますが、ドメインシフトによって引き起こされるパフォーマンスの低下を悪化させることがよくあります。
この作業では、2つの重要な革新を通じてこれらの障害を克服するためにセグメントAnyment Model(SAM)を拡張するSegment Anyment Anymish Anymish Anymish Anymish Anymish Anymish Anyment Model(AMA-SAM)の敵対的なマルチドメインアライメントを導入します。
まず、主要なデータセットの重要な識別機能を維持しながら、ドメインに不変の表現学習を促進するために特徴を調和させるマルチドメインアライメントモジュールである条件付き勾配反転層(CGRL)を提案します。
第二に、高解像度のデコーダー(HR-デコーダー)を設計することにより、SAMの固有の低解像度出力に対処します。これは、高解像度の組織学画像で複雑な核境界をキャプチャするために、細粒のセグメンテーションマップを直接生成します。
私たちの知る限り、これは組織学の核セグメンテーションへの適用を伴うマルチダタセット学習にSAMを適応させる最初の試みです。
いくつかの公開されたデータセットでメソッドを検証し、最先端のアプローチよりも一貫した大幅な改善を示しています。

要約(オリジナル)

Accurate segmentation of cell nuclei in histopathology images is essential for numerous biomedical research and clinical applications. However, existing cell nucleus segmentation methods only consider a single dataset (i.e., primary domain), while neglecting to leverage supplementary data from diverse sources (i.e., auxiliary domains) to reduce overfitting and enhance the performance. Although incorporating multiple datasets could alleviate overfitting, it often exacerbates performance drops caused by domain shifts. In this work, we introduce Adversarial Multi-domain Alignment of Segment Anything Model (AMA-SAM) that extends the Segment Anything Model (SAM) to overcome these obstacles through two key innovations. First, we propose a Conditional Gradient Reversal Layer (CGRL), a multi-domain alignment module that harmonizes features from diverse domains to promote domain-invariant representation learning while preserving crucial discriminative features for the primary dataset. Second, we address SAM’s inherent low-resolution output by designing a High-Resolution Decoder (HR-Decoder), which directly produces fine-grained segmentation maps in order to capture intricate nuclei boundaries in high-resolution histology images. To the best of our knowledge, this is the first attempt to adapt SAM for multi-dataset learning with application to histology nuclei segmentation. We validate our method on several publicly available datasets, demonstrating consistent and significant improvements over state-of-the-art approaches.

arxiv情報

著者 Jiahe Qian,Yaoyu Fang,Jinkui Hao,Bo Zhou
発行日 2025-03-27 16:59:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | AMA-SAM: Adversarial Multi-Domain Alignment of Segment Anything Model for High-Fidelity Histology Nuclei Segmentation はコメントを受け付けていません

Embodied-Reasoner: Synergizing Visual Search, Reasoning, and Action for Embodied Interactive Tasks

要約

深い思考モデルの最近の進歩により、数学的およびコーディングタスクに関する顕著な推論能力が実証されています。
ただし、画像アクションを介して環境との連続的な相互作用を必要とする具体化されたドメインにおけるそれらの有効性は、主に認定されたままです。
Empodied Reasherを提示します。これは、O1スタイルの推論をインタラクティブな具体化された検索タスクに拡張するモデルです。
主に論理的控除に依存する数学的推論とは異なり、具体化されたシナリオは、空間的理解、時間的推論、および相互作用履歴に基づいた継続的な自己反省を要求します。
これらの課題に対処するために、64kのインタラクティブな画像と90K多様な思考プロセスを含む9.3Kコヒーレント観測思考の軌跡を合成します(分析、空間推論、反射、計画、および検証)。
3段階のトレーニングパイプラインを開発し、模倣学習、拒否サンプリングを介した自己探求、および反射チューニングによる自己修正により、モデルの機能を徐々に強化します。
この評価は、私たちのモデルがこれらの高度な視覚推論モデルを大幅に上回ることを示しています。
分析により、私たちのモデルは、複雑な長期タスクに特に利点がある、繰り返しの検索と論理的な矛盾が少ないことを示すことが明らかになりました。
現実世界の環境は、繰り返しの検索と論理的な矛盾のケースが少なくなりながら、私たちの優位性も示しています。

要約(オリジナル)

Recent advances in deep thinking models have demonstrated remarkable reasoning capabilities on mathematical and coding tasks. However, their effectiveness in embodied domains which require continuous interaction with environments through image action interleaved trajectories remains largely -unexplored. We present Embodied Reasoner, a model that extends o1 style reasoning to interactive embodied search tasks. Unlike mathematical reasoning that relies primarily on logical deduction, embodied scenarios demand spatial understanding, temporal reasoning, and ongoing self-reflection based on interaction history. To address these challenges, we synthesize 9.3k coherent Observation-Thought-Action trajectories containing 64k interactive images and 90k diverse thinking processes (analysis, spatial reasoning, reflection, planning, and verification). We develop a three-stage training pipeline that progressively enhances the model’s capabilities through imitation learning, self-exploration via rejection sampling, and self-correction through reflection tuning. The evaluation shows that our model significantly outperforms those advanced visual reasoning models, e.g., it exceeds OpenAI o1, o3-mini, and Claude-3.7 by +9\%, 24\%, and +13\%. Analysis reveals our model exhibits fewer repeated searches and logical inconsistencies, with particular advantages in complex long-horizon tasks. Real-world environments also show our superiority while exhibiting fewer repeated searches and logical inconsistency cases.

arxiv情報

著者 Wenqi Zhang,Mengna Wang,Gangao Liu,Xu Huixin,Yiwei Jiang,Yongliang Shen,Guiyang Hou,Zhe Zheng,Hang Zhang,Xin Li,Weiming Lu,Peng Li,Yueting Zhuang
発行日 2025-03-27 17:00:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV | Embodied-Reasoner: Synergizing Visual Search, Reasoning, and Action for Embodied Interactive Tasks はコメントを受け付けていません

MAVERIX: Multimodal Audio-Visual Evaluation Reasoning IndeX

要約

フロンティアモデルは言語のみであるか、主にビジョンと言語のモダリティに焦点を当てています。
ビジョンとオーディオ理解機能を備えたモデルの最近の進歩は大きな進歩を示していますが、この分野には、クロスモダリティの知覚パフォーマンスを徹底的に評価するための標準化された評価フレームワークがありません。
Maverix〜(マルチモーダルオーディオ視聴覚評価推論インデックス)を紹介します。これは、ビデオとオーディオ情報の密接な統合を必要とするタスクを介してマルチモーダルモデルを評価するために明示的に設計された700のビデオと2,556の質問を明示的に設計した2,556の質問です。
Maverixは、モデルに視聴覚タスクをモデルに提供し、推論および意思決定プロセス中に人間が利用できるマルチモーダルな知覚体験を密接に模倣しています。
私たちの知る限り、Maverixは、包括的な視聴覚統合の評価を明示的に目的とした最初のベンチマークです。
Gemini 1.5 ProやO1を含む最先端のモデルを使用した実験では、人間のレベルに近づいているパフォーマンス(約70%の精度)を示し、人間の専門家はほぼ天井のパフォーマンス(95.1%)に達します。
標準化された評価プロトコル、厳密に注釈付きパイプライン、およびパブリックツールキットにより、Maverixは、視聴覚マルチモーダルインテリジェンスを進めるための挑戦的なテストベッドを確立します。

要約(オリジナル)

Frontier models have either been language-only or have primarily focused on vision and language modalities. Although recent advancements in models with vision and audio understanding capabilities have shown substantial progress, the field lacks a standardized evaluation framework for thoroughly assessing their cross-modality perception performance. We introduce MAVERIX~(Multimodal Audio-Visual Evaluation Reasoning IndeX), a novel benchmark with 700 videos and 2,556 questions explicitly designed to evaluate multimodal models through tasks that necessitate close integration of video and audio information. MAVERIX uniquely provides models with audiovisual tasks, closely mimicking the multimodal perceptual experiences available to humans during inference and decision-making processes. To our knowledge, MAVERIX is the first benchmark aimed explicitly at assessing comprehensive audiovisual integration. Experiments with state-of-the-art models, including Gemini 1.5 Pro and o1, show performance approaching human levels (around 70% accuracy), while human experts reach near-ceiling performance (95.1%). With standardized evaluation protocols, a rigorously annotated pipeline, and a public toolkit, MAVERIX establishes a challenging testbed for advancing audiovisual multimodal intelligence.

arxiv情報

著者 Liuyue Xie,George Z. Wei,Avik Kuthiala,Ce Zheng,Ananya Bal,Mosam Dabhi,Liting Wen,Taru Rustagi,Ethan Lai,Sushil Khyalia,Rohan Choudhury,Morteza Ziyadi,Xu Zhang,Hao Yang,László A. Jeni
発行日 2025-03-27 17:04:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.SD | MAVERIX: Multimodal Audio-Visual Evaluation Reasoning IndeX はコメントを受け付けていません

BACON: Improving Clarity of Image Captions via Bag-of-Concept Graphs

要約

大規模なビジョン言語モデルの進歩により、正確で正確な画像キャプションがもたらされ、マルチモーダルの画像の理解と処理を進めるために不可欠です。
しかし、これらのキャプションには、分析するのが難しく、頻繁に本質的なキューを見落とす長い絡み合ったコンテキストがあり、密集したキャプションを完全に活用するために必要な強力なテキストエンコーディングと構文分析が欠けているGroundingDinoやSDXLなどのモデルに大きな障壁を提起します。
これに対処するために、ベーコンを提案します。ベーコンは、VLMで生成されたキャプションを、オブジェクト、関係、スタイル、テーマなどのdiRentangledの構造化された要素に分解するプロンプト方法を提案します。
このアプローチは、複雑なコンテキストの処理による混乱を最小限に抑えるだけでなく、JSON辞書への効率的な転送を可能にし、言語処理機能なしでモデルを可能にしてキー情報に簡単にアクセスできます。
GPT-4Vを搭載したベーコンを使用して100,000の画像キャプションペアに注釈を付け、このデータセットでLlavaキャプションをトレーニングし、コストのかかるGPT-4Vに依存せずにベーコンスタイルのキャプションを生成できるようにしました。
全体的な品質、精度、およびリコールの評価は、ユーザー研究と同様に、結果のキャプションモデルが他のSOTA VLMモデルを一貫して高品質のキャプションを生成する際にアウトパフォームすることを実証しています。
さらに、ベーコンスタイルのキャプションは、さまざまなモデルに適用されると明確になり、以前に達成できないタスクを実現したり、トレーニングなしで既存のSOTAソリューションを上回ったりすることができることを示しています。
たとえば、ベーコンスタイルのキャプションは、GroundingDinoが主要な方法と比較して、オープンボキャブラリーオブジェクト検出タスクの1.51倍のリコールスコアを達成するのに役立ちます。

要約(オリジナル)

Advancements in large Vision-Language Models have brought precise, accurate image captioning, vital for advancing multi-modal image understanding and processing. Yet these captions often carry lengthy, intertwined contexts that are difficult to parse and frequently overlook essential cues, posing a great barrier for models like GroundingDINO and SDXL, which lack the strong text encoding and syntax analysis needed to fully leverage dense captions. To address this, we propose BACON, a prompting method that breaks down VLM-generated captions into disentangled, structured elements such as objects, relationships, styles, and themes. This approach not only minimizes confusion from handling complex contexts but also allows for efficient transfer into a JSON dictionary, enabling models without linguistic processing capabilities to easily access key information. We annotated 100,000 image-caption pairs using BACON with GPT-4V and trained an LLaVA captioner on this dataset, enabling it to produce BACON-style captions without relying on costly GPT-4V. Evaluations of overall quality, precision, and recall-as well as user studies-demonstrate that the resulting caption model consistently outperforms other SOTA VLM models in generating high-quality captions. Besides, we show that BACON-style captions exhibit better clarity when applied to various models, enabling them to accomplish previously unattainable tasks or surpass existing SOTA solutions without training. For example, BACON-style captions help GroundingDINO achieve 1.51x higher recall scores on open-vocabulary object detection tasks compared to leading methods.

arxiv情報

著者 Zhantao Yang,Ruili Feng,Keyu Yan,Huangji Wang,Zhicai Wang,Shangwen Zhu,Han Zhang,Jie Xiao,Pingyu Wu,Kai Zhu,Jixuan Chen,Chen-Wei Xie,Yue Yang,Hongyang Zhang,Yu Liu,Fan Cheng
発行日 2025-03-27 17:06:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV, cs.DB | BACON: Improving Clarity of Image Captions via Bag-of-Concept Graphs はコメントを受け付けていません

TripoSG: High-Fidelity 3D Shape Synthesis using Large-Scale Rectified Flow Models

要約

拡散技術の最近の進歩により、画像とビデオ生成が前例のないレベルの品質を推進し、生成AIの展開と適用を大幅に促進しました。
ただし、3Dデータスケールの制限、3Dデータ処理の複雑さ、3Dドメインの高度な技術の不十分な調査に制約されている3Dシェイプ生成テクノロジーは、これまで遅れています。
3D形状生成への現在のアプローチは、出力品質、一般化能力、および入力条件との整合に関して、大きな課題に直面しています。
入力画像に正確な対応で高忠実度の3Dメッシュを生成できる新しい合理化された形状拡散パラダイムであるTriposgを提示します。
具体的には、次の提案を提案します。1)3D形状生成のための大規模な修正フロートランス。
2)3D VAEのSDF、正常、およびエイコナル損失を組み合わせたハイブリッドの監視されたトレーニング戦略と、高品質の3D再構成パフォーマンスを達成します。
3)200万台の高品質の3Dサンプルを生成するデータ処理パイプライン。3D生成モデルのトレーニングにおけるデータ品質と数量に関する重要なルールを強調します。
包括的な実験を通じて、新しいフレームワークの各コンポーネントの有効性を検証しました。
これらの部品のシームレスな統合により、Triposgは3D形状生成で最先端のパフォーマンスを実現することができました。
結果として得られる3D形状は、高解像度の機能により詳細を拡張し、イメージを入力するための例外的な忠実度を示します。
さらに、TRIPOSGは、多様な画像スタイルとコンテンツから3Dモデルを生成する際の汎用性の向上を示し、強力な一般化能力を示しています。
3D世代の分野での進歩と革新を促進するために、モデルを公開します。

要約(オリジナル)

Recent advancements in diffusion techniques have propelled image and video generation to unprecedented levels of quality, significantly accelerating the deployment and application of generative AI. However, 3D shape generation technology has so far lagged behind, constrained by limitations in 3D data scale, complexity of 3D data processing, and insufficient exploration of advanced techniques in the 3D domain. Current approaches to 3D shape generation face substantial challenges in terms of output quality, generalization capability, and alignment with input conditions. We present TripoSG, a new streamlined shape diffusion paradigm capable of generating high-fidelity 3D meshes with precise correspondence to input images. Specifically, we propose: 1) A large-scale rectified flow transformer for 3D shape generation, achieving state-of-the-art fidelity through training on extensive, high-quality data. 2) A hybrid supervised training strategy combining SDF, normal, and eikonal losses for 3D VAE, achieving high-quality 3D reconstruction performance. 3) A data processing pipeline to generate 2 million high-quality 3D samples, highlighting the crucial rules for data quality and quantity in training 3D generative models. Through comprehensive experiments, we have validated the effectiveness of each component in our new framework. The seamless integration of these parts has enabled TripoSG to achieve state-of-the-art performance in 3D shape generation. The resulting 3D shapes exhibit enhanced detail due to high-resolution capabilities and demonstrate exceptional fidelity to input images. Moreover, TripoSG demonstrates improved versatility in generating 3D models from diverse image styles and contents, showcasing strong generalization capabilities. To foster progress and innovation in the field of 3D generation, we will make our model publicly available.

arxiv情報

著者 Yangguang Li,Zi-Xin Zou,Zexiang Liu,Dehu Wang,Yuan Liang,Zhipeng Yu,Xingchao Liu,Yuan-Chen Guo,Ding Liang,Wanli Ouyang,Yan-Pei Cao
発行日 2025-03-27 17:25:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | TripoSG: High-Fidelity 3D Shape Synthesis using Large-Scale Rectified Flow Models はコメントを受け付けていません

SlowFast-LLaVA-1.5: A Family of Token-Efficient Video Large Language Models for Long-Form Video Understanding

要約

Slowaffast-llava-1.5(SF-llava-1.5として省略)を紹介します。これは、長い形式のビデオ理解のためのトークン効率の高いソリューションを提供するビデオ大規模言語モデル(LLMS)ファミリー(LLMS)です。
2ストリームスローファーストメカニズムを合理化されたトレーニングパイプラインに組み込み、公開されているデータセットのみの慎重にキュレーションされたデータ混合物について共同ビデオイメージトレーニングを実行します。
私たちの主な焦点は、非常に効率的なモデルスケール(1Bおよび3B)にあり、比較的小さなビデオLLMでさえ、ビデオ理解で最先端のパフォーマンスを達成し、モバイルフレンドリーモデルの需要を満たすことができることを示しています。
実験結果は、SF-llava-1.5が幅広いビデオおよび画像タスクで優れたパフォーマンスを達成し、すべてのモデルサイズ(1Bから7Bの範囲)で堅牢な結果をもたらすことを示しています。
特に、SF-llava-1.5は、長い形式のビデオ理解(LongvideobenchやMLVUなど)で最新の結果を達成し、さまざまなビデオベンチマークにわたって小さなスケールで優れています。

要約(オリジナル)

We introduce SlowFast-LLaVA-1.5 (abbreviated as SF-LLaVA-1.5), a family of video large language models (LLMs) offering a token-efficient solution for long-form video understanding. We incorporate the two-stream SlowFast mechanism into a streamlined training pipeline, and perform joint video-image training on a carefully curated data mixture of only publicly available datasets. Our primary focus is on highly efficient model scales (1B and 3B), demonstrating that even relatively small Video LLMs can achieve state-of-the-art performance on video understanding, meeting the demand for mobile-friendly models. Experimental results demonstrate that SF-LLaVA-1.5 achieves superior performance on a wide range of video and image tasks, with robust results at all model sizes (ranging from 1B to 7B). Notably, SF-LLaVA-1.5 achieves state-of-the-art results in long-form video understanding (e.g., LongVideoBench and MLVU) and excels at small scales across various video benchmarks.

arxiv情報

著者 Mingze Xu,Mingfei Gao,Shiyu Li,Jiasen Lu,Zhe Gan,Zhengfeng Lai,Meng Cao,Kai Kang,Yinfei Yang,Afshin Dehghan
発行日 2025-03-27 17:34:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | SlowFast-LLaVA-1.5: A Family of Token-Efficient Video Large Language Models for Long-Form Video Understanding はコメントを受け付けていません