Anchors Aweigh! Sail for Optimal Unified Multi-Modal Representations

要約

マルチモーダル学習の統一された表現スペースは、テキスト、画像、オーディオなどの多様なデータソースを効果的に統合して、さまざまなダウンストリームタスクの効率とパフォーマンスを向上させるために不可欠です。
ImageBind(Girdhar et al。、2023)などの最近の結合方法は、通常、マルチモーダルデータを調整するための単一の固定アンカーモダリティに依存しています。
これらの固定アンカー結合法を数学的に分析し、重要な制限を明らかにします。(1)アンカーモダリティの選択、(2)モーダル情報の不十分なキャプチャ、および(3)非アンカーモダリティ間のクロスモーダル相関を説明できない。
これらの問題に対処するために、フレームワークのCentrobindによって例示される適応アンカー結合方法の必要性を提案します。
提案された方法は、利用可能なすべてのモダリティから生成された適応的に調整可能な重心ベースのアンカーを使用し、バランスのとれた豊富な表現スペースにつながります。
私たちのアプローチは、すべてのモダリティに及ぶ統一表現を構築しながら、マルチモーダル学習の3つの重要な特性(モーダル学習、インターモーダル学習、マルチモーダルアライメント)をキャプチャすることを理論的に実証します。
合成データセットと現実世界の両方のデータセットでの実験は、Centrobindなどの適応的なアンカー方法が固定アンカー結合方法を常に上回り、分析を検証することを示しています。

要約(オリジナル)

A unified representation space in multi-modal learning is essential for effectively integrating diverse data sources, such as text, images, and audio, to enhance efficiency and performance across various downstream tasks. Recent binding methods, such as ImageBind (Girdhar et al., 2023), typically rely on a single, fixed anchor modality for aligning multi-modal data. We mathematically analyze these fixed anchor binding method and uncover significant limitations: (1) over-reliance on the choice of the anchor modality, (2) inadequate capture of intra-modal information, and (3) failure to account for cross-modal correlation among non-anchored modalities. To address these issues, we propose the need for adaptive anchor binding methods, exemplified by our framework CentroBind. The proposed method uses adaptively adjustable centroid-based anchors generated from all available modalities, leading to a balanced and rich representation space. We theoretically demonstrate that our approach captures three critical properties of multi-modal learning — intra-modal learning, inter-modal learning, and multi-modal alignment — while constructing a unified representation that spans all modalities. Experiments on both synthetic and real-world datasets show that adaptive anchor methods such as CentroBind consistently outperform fixed anchor binding methods, verifying our analysis.

arxiv情報

著者 Minoh Jeong,Min Namgung,Zae Myung Kim,Dongyeop Kang,Yao-Yi Chiang,Alfred Hero
発行日 2025-03-14 16:36:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, stat.ML | Anchors Aweigh! Sail for Optimal Unified Multi-Modal Representations はコメントを受け付けていません

RASA: Replace Anyone, Say Anything — A Training-Free Framework for Audio-Driven and Universal Portrait Video Editing

要約

ポートレートビデオ編集は、オーディオまたはビデオストリームに導かれた、ポートレートビデオの特定の属性の変更に焦点を当てています。
以前の方法は通常、唇領域の再現に集中するか、新しいアイデンティティへのモーション転送のためにキーポイントを抽出するための専門モデルをトレーニングする必要があります。
このペーパーでは、多用途で適応性のある編集戦略を提供するトレーニングフリーのユニバーサルポートレートビデオ編集フレームワークを紹介します。
このフレームワークは、変更された最初の参照フレームを条件付けたポートレートの外観編集と、さまざまな音声または両方の組み合わせを条件とするリップ編集をサポートします。
これは、視覚駆動型の形状コントロール、オーディオ駆動型のスーキングコントロール、およびインターフレームの時間制御を含む、ソース反転潜伏物質を備えた統合アニメーションコントロール(UAC)メカニズムに基づいています。
さらに、最初の参照フレームを調整して、特定のヘッドローテーションと表情を使用したポートレートビデオの詳細な編集を可能にすることにより、さまざまなシナリオに適合させることができます。
この包括的なアプローチにより、ポートレートビデオ編集のための全体的で柔軟なソリューションが保証されます。
実験結果は、私たちのモデルが、リップ編集タスクのために、より正確で同期した唇の動きを実現できること、および外観編集タスクのより柔軟なモーション転送を実現できることを示しています。
デモはhttps://alice01010101.github.io/rasa/で入手できます。

要約(オリジナル)

Portrait video editing focuses on modifying specific attributes of portrait videos, guided by audio or video streams. Previous methods typically either concentrate on lip-region reenactment or require training specialized models to extract keypoints for motion transfer to a new identity. In this paper, we introduce a training-free universal portrait video editing framework that provides a versatile and adaptable editing strategy. This framework supports portrait appearance editing conditioned on the changed first reference frame, as well as lip editing conditioned on varied speech, or a combination of both. It is based on a Unified Animation Control (UAC) mechanism with source inversion latents to edit the entire portrait, including visual-driven shape control, audio-driven speaking control, and inter-frame temporal control. Furthermore, our method can be adapted to different scenarios by adjusting the initial reference frame, enabling detailed editing of portrait videos with specific head rotations and facial expressions. This comprehensive approach ensures a holistic and flexible solution for portrait video editing. The experimental results show that our model can achieve more accurate and synchronized lip movements for the lip editing task, as well as more flexible motion transfer for the appearance editing task. Demo is available at https://alice01010101.github.io/RASA/.

arxiv情報

著者 Tianrui Pan,Lin Liu,Jie Liu,Xiaopeng Zhang,Jie Tang,Gangshan Wu,Qi Tian
発行日 2025-03-14 16:39:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | RASA: Replace Anyone, Say Anything — A Training-Free Framework for Audio-Driven and Universal Portrait Video Editing はコメントを受け付けていません

SmolDocling: An ultra-compact vision-language model for end-to-end multi-modal document conversion

要約

エンドツーエンドのドキュメント変換をターゲットにした超コンパクトビジョン言語モデルであるSmoldoclingを紹介します。
私たちのモデルは、場所との完全なコンテキストですべてのページ要素をキャプチャする新しいユニバーサルマークアップ形式であるDoctagsを生成することにより、ページ全体を包括的に処理します。
大規模な基礎モデル、または複数の特殊なモデルの手作りパイプラインに依存するアンサンブルソリューションに依存する既存のアプローチとは異なり、Smoldoclingは、256mパラメーターの視覚障害モデルでドキュメント要素のコンテンツ、構造、空間位置を正確にキャプチャするためのエンドツーエンド変換を提供します。
Smoldoclingは、コードリスト、表、方程式、チャート、リストなど、ビジネスドキュメント、学術論文、技術レポート、特許、フォームなどの多様なドキュメントタイプなど、コードリスト、表、方程式、チャート、リストなどのドキュメント機能を正しく再現することで、堅牢なパフォーマンスを示します。
さらに、チャート、表、方程式、およびコード認識の新しい公開データセットを提供します。
実験結果は、Smoldoclingが計算要件を大幅に削減しながら、サイズが最大27倍大きい他のビジョン言語モデルと競合することを示しています。
モデルは現在利用可能です。データセットはまもなく公開されます。

要約(オリジナル)

We introduce SmolDocling, an ultra-compact vision-language model targeting end-to-end document conversion. Our model comprehensively processes entire pages by generating DocTags, a new universal markup format that captures all page elements in their full context with location. Unlike existing approaches that rely on large foundational models, or ensemble solutions that rely on handcrafted pipelines of multiple specialized models, SmolDocling offers an end-to-end conversion for accurately capturing content, structure and spatial location of document elements in a 256M parameters vision-language model. SmolDocling exhibits robust performance in correctly reproducing document features such as code listings, tables, equations, charts, lists, and more across a diverse range of document types including business documents, academic papers, technical reports, patents, and forms — significantly extending beyond the commonly observed focus on scientific papers. Additionally, we contribute novel publicly sourced datasets for charts, tables, equations, and code recognition. Experimental results demonstrate that SmolDocling competes with other Vision Language Models that are up to 27 times larger in size, while reducing computational requirements substantially. The model is currently available, datasets will be publicly available soon.

arxiv情報

著者 Ahmed Nassar,Andres Marafioti,Matteo Omenetti,Maksym Lysak,Nikolaos Livathinos,Christoph Auer,Lucas Morin,Rafael Teixeira de Lima,Yusik Kim,A. Said Gurbuz,Michele Dolfi,Miquel Farré,Peter W. J. Staar
発行日 2025-03-14 16:44:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | SmolDocling: An ultra-compact vision-language model for end-to-end multi-modal document conversion はコメントを受け付けていません

Vamba: Understanding Hour-Long Videos with Hybrid Mamba-Transformers

要約

最先端の変圧器ベースの大規模マルチモーダルモデル(LMMS)は、因果的自己触媒操作の二次複雑さのために1時間のビデオ入力を処理するのに苦労し、トレーニングと推論中の高い計算コストにつながります。
既存のトークン圧縮ベースの方法は、ビデオトークンの数を減らしますが、多くの場合、情報の損失が発生し、非常に長いシーケンスでは非効率的なままです。
この論文では、直交方向を探索して、Mamba-2ブロックを使用してビデオトークンを線形複雑さでエンコードするハイブリッドMamba-Transformerモデル(Vamba)を構築します。
トークンの削減がなければ、Vambaは1つのGPUで1024フレーム(640 $ \ Times $ 360)をエンコードできますが、トランスベースのモデルは256フレームのみをエンコードできます。
長いビデオ入力では、バンバはトレーニングと推論中にGPUメモリの使用量を少なくとも50%削減し、トランスベースのLMMと比較してトレーニングステップごとに速度をほぼ2倍にします。
私たちの実験結果は、VAMBAが、以前の効率的なビデオLMMSよりも挑戦的な1時間のビデオ理解ベンチマークLVBenchの精度を4.3%向上させ、長くて短いビデオ理解タスクの広範囲にわたって強力なパフォーマンスを維持することを示しています。

要約(オリジナル)

State-of-the-art transformer-based large multimodal models (LMMs) struggle to handle hour-long video inputs due to the quadratic complexity of the causal self-attention operations, leading to high computational costs during training and inference. Existing token compression-based methods reduce the number of video tokens but often incur information loss and remain inefficient for extremely long sequences. In this paper, we explore an orthogonal direction to build a hybrid Mamba-Transformer model (VAMBA) that employs Mamba-2 blocks to encode video tokens with linear complexity. Without any token reduction, VAMBA can encode more than 1024 frames (640$\times$360) on a single GPU, while transformer-based models can only encode 256 frames. On long video input, VAMBA achieves at least 50% reduction in GPU memory usage during training and inference, and nearly doubles the speed per training step compared to transformer-based LMMs. Our experimental results demonstrate that VAMBA improves accuracy by 4.3% on the challenging hour-long video understanding benchmark LVBench over prior efficient video LMMs, and maintains strong performance on a broad spectrum of long and short video understanding tasks.

arxiv情報

著者 Weiming Ren,Wentao Ma,Huan Yang,Cong Wei,Ge Zhang,Wenhu Chen
発行日 2025-03-14 16:45:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Vamba: Understanding Hour-Long Videos with Hybrid Mamba-Transformers はコメントを受け付けていません

Towards Few-Call Model Stealing via Active Self-Paced Knowledge Distillation and Diffusion-Based Image Generation

要約

拡散モデルは、画像合成の強力な機能を示しており、多くのコンピュータービジョンタスクで使用されています。
この目的のために、新しいユースケース、つまり、元のトレーニングデータ、アーキテクチャ、モデルの重みにアクセスせずにブラックボックス分類モデルをコピーすることを提案します。つまり、モデルは推論APIを介してのみ公開されます。
より具体的には、モデルへの入力として渡された一部の画像サンプルの(ソフトまたはハード)ラベルのみを観察できます。
さらに、モデル呼び出しの数を制限する追加の制約を検討し、主に少ないコールモデル盗みに焦点を当てています。
適用された制限を考慮して、モデル抽出タスクを解決するために、次のフレームワークを提案します。
トレーニングデータとして、拡散モデルが現実的で多様な画像を生成する能力を活用することにより、合成データセット(プロキシデータセットと呼ばれる)を作成します。
許可されたAPI呼び出しの最大数を考えると、ブラックボックスモデルを介してそれぞれのサンプル数を渡してラベルを収集します。
最後に、Black-Box Teacher(攻撃モデル)の知識を学生モデル(攻撃されたモデルのコピー)に蒸留し、拡散モデルによって生成されたラベル付きデータと非標識データの両方を活用します。
蒸留中にプロキシデータを最大限に活用するために、新しいアクティブな自己ペース学習フレームワークを採用しています。
3つのデータセットでの経験的結果は、少ないモデル抽出シナリオにおける4つの最先端の方法にわたるフレームワークの優位性を確認します。
https://github.com/vladhondru25/model-stealingで無料で非営利的に使用するためにコードをリリースします。

要約(オリジナル)

Diffusion models showcase strong capabilities in image synthesis, being used in many computer vision tasks with great success. To this end, we propose to explore a new use case, namely to copy black-box classification models without having access to the original training data, the architecture, and the weights of the model, i.e. the model is only exposed through an inference API. More specifically, we can only observe the (soft or hard) labels for some image samples passed as input to the model. Furthermore, we consider an additional constraint limiting the number of model calls, mostly focusing our research on few-call model stealing. In order to solve the model extraction task given the applied restrictions, we propose the following framework. As training data, we create a synthetic data set (called proxy data set) by leveraging the ability of diffusion models to generate realistic and diverse images. Given a maximum number of allowed API calls, we pass the respective number of samples through the black-box model to collect labels. Finally, we distill the knowledge of the black-box teacher (attacked model) into a student model (copy of the attacked model), harnessing both labeled and unlabeled data generated by the diffusion model. We employ a novel active self-paced learning framework to make the most of the proxy data during distillation. Our empirical results on three data sets confirm the superiority of our framework over four state-of-the-art methods in the few-call model extraction scenario. We release our code for free non-commercial use at https://github.com/vladhondru25/model-stealing.

arxiv情報

著者 Vlad Hondru,Radu Tudor Ionescu
発行日 2025-03-14 16:52:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG | Towards Few-Call Model Stealing via Active Self-Paced Knowledge Distillation and Diffusion-Based Image Generation はコメントを受け付けていません

Pathology Image Compression with Pre-trained Autoencoders

要約

デジタル組織病理学の高解像度全体のスライド画像の量が増えているため、重要な保管、伝送、および計算効率の課題が生じます。
JPEGなどの標準的な圧縮方法は、ファイルサイズを削減しますが、多くの場合、下流のタスクに重要な細粒の表現型の詳細を保存できません。
この作業では、病理画像の効率的な学習圧縮フレームワークとして、潜在的拡散モデル向けに設計された自動エンコーダー(AE)を再利用します。
圧縮レベルが変化する3つのAEモデルを体系的にベンチマークし、病理学の基礎モデルを使用して再構築能力を評価します。
病理学固有の学習知覚メトリックを最適化する再構築の忠実度をさらに強化するために、微調整戦略を導入します。
セグメンテーション、パッチ分類、複数のインスタンス学習など、ダウンストリームタスクに関するアプローチを検証し、画像をAE圧縮再構成に置き換えるとパフォーマンスの低下につながることが示されます。
さらに、AEの潜在性のK-Meansクラスタリングベースの量子化方法を提案し、再構成の品質を維持しながら貯蔵効率を改善します。
https://huggingface.co/collections/stonybrook-cvlab/pathology-fine-tuned-aes-67d45fff223a659ff2e3402dd0で微調整された自動エンコーダーの重みを提供します。

要約(オリジナル)

The growing volume of high-resolution Whole Slide Images in digital histopathology poses significant storage, transmission, and computational efficiency challenges. Standard compression methods, such as JPEG, reduce file sizes but often fail to preserve fine-grained phenotypic details critical for downstream tasks. In this work, we repurpose autoencoders (AEs) designed for Latent Diffusion Models as an efficient learned compression framework for pathology images. We systematically benchmark three AE models with varying compression levels and evaluate their reconstruction ability using pathology foundation models. We introduce a fine-tuning strategy to further enhance reconstruction fidelity that optimizes a pathology-specific learned perceptual metric. We validate our approach on downstream tasks, including segmentation, patch classification, and multiple instance learning, showing that replacing images with AE-compressed reconstructions leads to minimal performance degradation. Additionally, we propose a K-means clustering-based quantization method for AE latents, improving storage efficiency while maintaining reconstruction quality. We provide the weights of the fine-tuned autoencoders at https://huggingface.co/collections/StonyBrook-CVLab/pathology-fine-tuned-aes-67d45f223a659ff2e3402dd0.

arxiv情報

著者 Srikar Yellapragada,Alexandros Graikos,Kostas Triaridis,Zilinghan Li,Tarak Nath Nandi,Ravi K Madduri,Prateek Prasanna,Joel Saltz,Dimitris Samaras
発行日 2025-03-14 17:01:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, eess.IV | Pathology Image Compression with Pre-trained Autoencoders はコメントを受け付けていません

Advancing 3D Gaussian Splatting Editing with Complementary and Consensus Information

要約

We present a novel framework for enhancing the visual fidelity and consistency of text-guided 3D Gaussian Splatting (3DGS) editing.
既存の編集アプローチは、2つの重要な課題に直面しています。特に挑戦的なカメラの位置における複数の視点にわたる一貫性のない幾何学的再構成と、画像操作中の深さ情報の効果的な利用は、テクスチャのアーティファクトと分解されたオブジェクトの境界をもたらします。
これらの制限に対処するために、次のように紹介します。1)3DGSからの深度マップ推定を強化する補完的な情報相互学習ネットワークを紹介し、幾何学的構造を保存しながら正確な深さ条件付き3D編集を可能にします。
2)拡散除去プロセス中に潜在コードを効果的に整列させ、編集された結果のマルチビューの一貫性を確保するウェーブレットコンセンサス注意メカニズム。
広範な実験を通じて、私たちの方法は、最先端のアプローチと比較して、品質とビューの一貫性をレンダリングする上で優れたパフォーマンスを示しています。
The results validate our framework as an effective solution for text-guided editing of 3D scenes.

要約(オリジナル)

We present a novel framework for enhancing the visual fidelity and consistency of text-guided 3D Gaussian Splatting (3DGS) editing. Existing editing approaches face two critical challenges: inconsistent geometric reconstructions across multiple viewpoints, particularly in challenging camera positions, and ineffective utilization of depth information during image manipulation, resulting in over-texture artifacts and degraded object boundaries. To address these limitations, we introduce: 1) A complementary information mutual learning network that enhances depth map estimation from 3DGS, enabling precise depth-conditioned 3D editing while preserving geometric structures. 2) A wavelet consensus attention mechanism that effectively aligns latent codes during the diffusion denoising process, ensuring multi-view consistency in the edited results. Through extensive experimentation, our method demonstrates superior performance in rendering quality and view consistency compared to state-of-the-art approaches. The results validate our framework as an effective solution for text-guided editing of 3D scenes.

arxiv情報

著者 Xuanqi Zhang,Jieun Lee,Chris Joslin,Wonsook Lee
発行日 2025-03-14 17:15:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Advancing 3D Gaussian Splatting Editing with Complementary and Consensus Information はコメントを受け付けていません

Rethinking Few-Shot Adaptation of Vision-Language Models in Two Stages

要約

An old-school recipe for training a classifier is to (i) learn a good feature extractor and (ii) optimize a linear layer atop.
少数のショット適応(FSA)のように、カテゴリごとに少数のサンプルのみが利用可能である場合、データは多数のパラメーターに適合するには不十分であり、上記を非現実的にします。
これは、パラメーター効率の高い微調整(PEFT)とFSAの交差点での成功した研究を動機付けた大規模な訓練を受けたビジョン言語モデル(VLM)に特に当てはまります。
この作業では、「ベース」クラスと呼ばれるカテゴリのサブセットのみの少数のデータのみでトレーニングされたときに、PEFTテクニックの学習ダイナミクスを分析することから始めます。
このようなダイナミクスが自然に2つの異なるフェーズに分割されることを示します:(i)タスクレベルの特徴抽出と(ii)利用可能な概念への専門化。
To accommodate this dynamic, we then depart from prompt- or adapter-based methods and tackle FSA differently.
具体的には、固定された計算予算を考慮して、(i)PEFTを介してタスク固有の特徴抽出器を学習し、(ii)上部に線形分類器を訓練することに分割します。
We call this scheme Two-Stage Few-Shot Adaptation (2SFS).
確立された方法とは異なる方法で、私たちのスキームは、カテゴリレベルでの新しい形式の選択的推論を可能にします。つまり、テスト時に、新しいカテゴリのみが適応されたテキストエンコーダーに埋め込まれ、ベースカテゴリの埋め込みは分類器内に入手できます。
結果は、2つの設定、3つのバックボーン、および11のデータセットにわたって固定されたハイパーパラメーターを使用して、2SFが最先端に一致または上回ることを示していますが、確立された方法は設定全体で大幅に劣化しています。

要約(オリジナル)

An old-school recipe for training a classifier is to (i) learn a good feature extractor and (ii) optimize a linear layer atop. When only a handful of samples are available per category, as in Few-Shot Adaptation (FSA), data are insufficient to fit a large number of parameters, rendering the above impractical. This is especially true with large pre-trained Vision-Language Models (VLMs), which motivated successful research at the intersection of Parameter-Efficient Fine-tuning (PEFT) and FSA. In this work, we start by analyzing the learning dynamics of PEFT techniques when trained on few-shot data from only a subset of categories, referred to as the “base” classes. We show that such dynamics naturally splits into two distinct phases: (i) task-level feature extraction and (ii) specialization to the available concepts. To accommodate this dynamic, we then depart from prompt- or adapter-based methods and tackle FSA differently. Specifically, given a fixed computational budget, we split it to (i) learn a task-specific feature extractor via PEFT and (ii) train a linear classifier on top. We call this scheme Two-Stage Few-Shot Adaptation (2SFS). Differently from established methods, our scheme enables a novel form of selective inference at a category level, i.e., at test time, only novel categories are embedded by the adapted text encoder, while embeddings of base categories are available within the classifier. Results with fixed hyperparameters across two settings, three backbones, and eleven datasets, show that 2SFS matches or surpasses the state-of-the-art, while established methods degrade significantly across settings.

arxiv情報

著者 Matteo Farina,Massimiliano Mancini,Giovanni Iacca,Elisa Ricci
発行日 2025-03-14 17:24:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, cs.MM | Rethinking Few-Shot Adaptation of Vision-Language Models in Two Stages はコメントを受け付けていません

TreeMeshGPT: Artistic Mesh Generation with Autoregressive Tree Sequencing

要約

Treemeshgptを紹介します。Treemeshgptは、入力ポイントクラウドに沿った高品質の芸術的メッシュを生成するように設計された自動再生トランスを紹介します。
自己回帰変圧器の従来の次のトークン予測の代わりに、メッシュ内の面の三角形の隣接に基づいて構築される動的に成長しているツリー構造から次の入力トークンが取得される新しい自己回帰ツリーシーケンスを提案します。
シーケンスにより、メッシュは各ステップで最後の生成された三角形の面から局所的に拡張できるため、トレーニングの難易度が低下し、メッシュの品質が向上します。
私たちのアプローチは、2つのトークンを備えた各三角形の顔を表し、ナイーブな顔の象徴化と比較して約22%の圧縮率を達成します。
この効率的なトークン化により、私たちのモデルは、容量と忠実度の両方で以前の方法を上回り、強みクラウドコンディショニングを備えた非常に詳細な芸術メッシュを生成できます。
さらに、私たちの方法は、強力な通常の方向制約を備えたメッシュを生成し、以前の方法で一般的に遭遇する反転法線を最小限に抑えます。
私たちの実験は、Treemeshgptが洗練された詳細と通常の方向の一貫性を備えたメッシュ生成の品質を高めることを示しています。

要約(オリジナル)

We introduce TreeMeshGPT, an autoregressive Transformer designed to generate high-quality artistic meshes aligned with input point clouds. Instead of the conventional next-token prediction in autoregressive Transformer, we propose a novel Autoregressive Tree Sequencing where the next input token is retrieved from a dynamically growing tree structure that is built upon the triangle adjacency of faces within the mesh. Our sequencing enables the mesh to extend locally from the last generated triangular face at each step, and therefore reduces training difficulty and improves mesh quality. Our approach represents each triangular face with two tokens, achieving a compression rate of approximately 22% compared to the naive face tokenization. This efficient tokenization enables our model to generate highly detailed artistic meshes with strong point cloud conditioning, surpassing previous methods in both capacity and fidelity. Furthermore, our method generates mesh with strong normal orientation constraints, minimizing flipped normals commonly encountered in previous methods. Our experiments show that TreeMeshGPT enhances the mesh generation quality with refined details and normal orientation consistency.

arxiv情報

著者 Stefan Lionar,Jiabin Liang,Gim Hee Lee
発行日 2025-03-14 17:48:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.GR, cs.MM | TreeMeshGPT: Artistic Mesh Generation with Autoregressive Tree Sequencing はコメントを受け付けていません

Seeing and Seeing Through the Glass: Real and Synthetic Data for Multi-Layer Depth Estimation

要約

透明なオブジェクトは日常生活で一般的であり、透明な表面とその背後にあるオブジェクトの両方を知覚する多層深度情報を理解することは、透明な材料と相互作用する実際のアプリケーションにとって重要です。
このホワイトペーパーでは、マルチレイヤー深度推定のタスクをサポートするために、実際のベンチマークや合成データジェネレーターを含む多層深度注釈を含む最初のデータセットであるLayeredDepthを紹介します。
現実世界のベンチマークは、多様なシーンからの1,500の画像で構成されており、最先端の深度推定方法を評価すると、透明なオブジェクトと格闘しています。
合成データジェネレーターは完全に手続き的であり、このタスクのトレーニングデータを無制限の種類のオブジェクトとシーン構成で提供することができます。
このジェネレーターを使用して、15,300枚の画像で合成データセットを作成します。
この合成データセットでのみトレーニングするベースラインモデルは、良好なクロスドメイン多層深度推定を生成します。
最先端のシングルレイヤー深度モデルを微調整すると、透明なオブジェクトでのパフォーマンスが大幅に向上し、ベンチマークのQuadrupletの精度は55.14%から75.20%に増加しました。
すべての画像と検証注釈は、https://layereddepth.cs.princeton.eduのCC0で入手できます。

要約(オリジナル)

Transparent objects are common in daily life, and understanding their multi-layer depth information — perceiving both the transparent surface and the objects behind it — is crucial for real-world applications that interact with transparent materials. In this paper, we introduce LayeredDepth, the first dataset with multi-layer depth annotations, including a real-world benchmark and a synthetic data generator, to support the task of multi-layer depth estimation. Our real-world benchmark consists of 1,500 images from diverse scenes, and evaluating state-of-the-art depth estimation methods on it reveals that they struggle with transparent objects. The synthetic data generator is fully procedural and capable of providing training data for this task with an unlimited variety of objects and scene compositions. Using this generator, we create a synthetic dataset with 15,300 images. Baseline models training solely on this synthetic dataset produce good cross-domain multi-layer depth estimation. Fine-tuning state-of-the-art single-layer depth models on it substantially improves their performance on transparent objects, with quadruplet accuracy on our benchmark increased from 55.14% to 75.20%. All images and validation annotations are available under CC0 at https://layereddepth.cs.princeton.edu.

arxiv情報

著者 Hongyu Wen,Yiming Zuo,Venkat Subramanian,Patrick Chen,Jia Deng
発行日 2025-03-14 17:52:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Seeing and Seeing Through the Glass: Real and Synthetic Data for Multi-Layer Depth Estimation はコメントを受け付けていません