TimeZero: Temporal Video Grounding with Reasoning-Guided LVLM

要約

Timezeroを紹介します。Timezeroは、Timezeroを紹介します。これは、時間ビデオグラウンド(TVG)タスク用に設計された推論ガイド付きLVLMです。
このタスクには、特定の言語クエリに基づいて、長いビデオ内に関連するビデオセグメントを正確にローカライズする必要があります。
Timezeroは、推論プロセスを拡張することにより、この課題に取り組み、モデルが強化学習のみを通じてビデオ言語関係について推論できるようにします。
Timezeroの有効性を評価するために、TimezeroがCharades-STAで最新のパフォーマンスを達成する2つのベンチマークで実験を実施します。
コードはhttps://github.com/www-ye/timezeroで入手できます。

要約(オリジナル)

We introduce TimeZero, a reasoning-guided LVLM designed for the temporal video grounding (TVG) task. This task requires precisely localizing relevant video segments within long videos based on a given language query. TimeZero tackles this challenge by extending the inference process, enabling the model to reason about video-language relationships solely through reinforcement learning. To evaluate the effectiveness of TimeZero, we conduct experiments on two benchmarks, where TimeZero achieves state-of-the-art performance on Charades-STA. Code is available at https://github.com/www-Ye/TimeZero.

arxiv情報

著者 Ye Wang,Boshen Xu,Zihao Yue,Zihan Xiao,Ziheng Wang,Liang Zhang,Dingyi Yang,Wenxuan Wang,Qin Jin
発行日 2025-03-17 17:04:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV | TimeZero: Temporal Video Grounding with Reasoning-Guided LVLM はコメントを受け付けていません

Cream of the Crop: Harvesting Rich, Scalable and Transferable Multi-Modal Data for Instruction Fine-Tuning

要約

前処理された大規模な言語モデル(LLM)は、微調整(SFT)段階(Zhou et al。、2024)の間に最小限の監督のみを必要とするという仮説は、データのキュレーションと選択研究の最近の進歩によって実証されています。
ただし、実験的セットアップと検証プロトコルに対する脆弱性のために安定性と一般化可能性は損なわれ、ランダムサンプリングを超えることはできません(Diddee&Ippolito、2024; Xia et al。、2024b)。
LLMSに基づいて構築されたマルチモーダルLLMS(MLLMS)は、データソースの純粋なトークンボリュームと高度な不均一性と組み合わされ、データ選択の重要性と複雑さの両方を増幅します。
マルチモーダルの指導データを堅牢で効率的な方法で収集するために、14の視覚関連機能に分解することにより、品質メトリックの粒度を再定義し、マルチモーダルのリッチスコアラーを導入して、各データ候補の機能を評価します。
アライメント段階の固有の目的に照らして、多様性を促進するために、相互作用スタイルを多様性インジケーターとして採用し、マルチモーダルリッチスタイラーを使用してデータ命令パターンを特定します。
そうすることで、私たちのマルチモーダルリッチスコアラーおよびスタイラー(MMSSR)は、高得点情報が多様な形でユーザーに伝えられることを保証します。
埋め込みベースのクラスタリングまたは貪欲なサンプリングがないため、MMSSRは、さまざまな予算の制約を伴う数百万のデータに効率的にスケーリングし、一般的または特定の機能獲得のカスタマイズをサポートし、キュレーションのための新しいドメインへのトレーニングのない一般化を促進します。
14のマルチモーダルベンチマークによって検証された10以上の実験設定で、ランダムサンプリング、ベースライン戦略、最先端の選択方法よりも一貫した改善が示され、2.6mデータの30%でフルパフォーマンスの99.1%を達成します。

要約(オリジナル)

The hypothesis that pretrained large language models (LLMs) necessitate only minimal supervision during the fine-tuning (SFT) stage (Zhou et al., 2024) has been substantiated by recent advancements in data curation and selection research. However, their stability and generalizability are compromised due to the vulnerability to experimental setups and validation protocols, falling short of surpassing random sampling (Diddee & Ippolito, 2024; Xia et al., 2024b). Built upon LLMs, multi-modal LLMs (MLLMs), combined with the sheer token volume and heightened heterogeneity of data sources, amplify both the significance and complexity of data selection. To harvest multi-modal instructional data in a robust and efficient manner, we re-define the granularity of the quality metric by decomposing it into 14 vision-language-related capabilities, and introduce multi-modal rich scorers to evaluate the capabilities of each data candidate. To promote diversity, in light of the inherent objective of the alignment stage, we take interaction style as diversity indicator and use a multi-modal rich styler to identify data instruction patterns. In doing so, our multi-modal rich scorers and styler (mmSSR) guarantee that high-scoring information is conveyed to users in diversified forms. Free from embedding-based clustering or greedy sampling, mmSSR efficiently scales to millions of data with varying budget constraints, supports customization for general or specific capability acquisition, and facilitates training-free generalization to new domains for curation. Across 10+ experimental settings, validated by 14 multi-modal benchmarks, we demonstrate consistent improvements over random sampling, baseline strategies and state-of-the-art selection methods, achieving 99.1% of full performance with only 30% of the 2.6M data.

arxiv情報

著者 Mengyao Lyu,Yan Li,Huasong Zhong,Wenhao Yang,Hui Chen,Jungong Han,Guiguang Ding,Zhenheng Yang
発行日 2025-03-17 17:11:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG | Cream of the Crop: Harvesting Rich, Scalable and Transferable Multi-Modal Data for Instruction Fine-Tuning はコメントを受け付けていません

Scale Efficient Training for Large Datasets

要約

データセットスケールの急速な成長は、深い学習研究を進めるための重要な要因となっています。
ただし、データセットスケールが増加するにつれて、過度の冗長サンプル、過度に挑戦するサンプル、モデル改善にほとんど寄与しない非効率的な簡単なサンプルを含む低価値サンプルの存在により、トレーニングプロセスがますます非効率になります。
低価値のサンプルを除去するために、SETAは最初にランダムな剪定を実行して冗長サンプルを排除し、次に損失によって測定された学習困難に応じて残りのサンプルをクラスターします。
このクラスタリングに基づいて、スライディングウィンドウ戦略が採用され、簡単なカリキュラムに従って過度に挑戦的で非効率的な簡単なクラスターの両方を徐々に除去します。私たちは、TOCA、SS1M、およびST+MJを含む大規模な合成データセットで、それぞれ300万を超えるサンプルを含む大規模な合成データセットで広範な実験を実施します。
70 \%コスト削減。
さらに、さまざまなバックボーン(CNN、トランス、マンバ)のさまざまなスケールの実際のデータセットと多様なタスク(命令チューニング、マルチビューステレオ、ジオローカリゼーション、構成画像検索、画像セグメンテーションを参照)での実験は、アプローチの強力な効果と普遍性を示しています。
コードはhttps://github.com/mrazhou/setaで入手できます。

要約(オリジナル)

The rapid growth of dataset scales has been a key driver in advancing deep learning research. However, as dataset scale increases, the training process becomes increasingly inefficient due to the presence of low-value samples, including excessive redundant samples, overly challenging samples, and inefficient easy samples that contribute little to model improvement.To address this challenge, we propose Scale Efficient Training (SeTa) for large datasets, a dynamic sample pruning approach that losslessly reduces training time. To remove low-value samples, SeTa first performs random pruning to eliminate redundant samples, then clusters the remaining samples according to their learning difficulty measured by loss. Building upon this clustering, a sliding window strategy is employed to progressively remove both overly challenging and inefficient easy clusters following an easy-to-hard curriculum.We conduct extensive experiments on large-scale synthetic datasets, including ToCa, SS1M, and ST+MJ, each containing over 3 million samples.SeTa reduces training costs by up to 50\% while maintaining or improving performance, with minimal degradation even at 70\% cost reduction. Furthermore, experiments on various scale real datasets across various backbones (CNNs, Transformers, and Mambas) and diverse tasks (instruction tuning, multi-view stereo, geo-localization, composed image retrieval, referring image segmentation) demonstrate the powerful effectiveness and universality of our approach. Code is available at https://github.com/mrazhou/SeTa.

arxiv情報

著者 Qing Zhou,Junyu Gao,Qi Wang
発行日 2025-03-17 17:13:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG | Scale Efficient Training for Large Datasets はコメントを受け付けていません

MicroVQA: A Multimodal Reasoning Benchmark for Microscopy-Based Scientific Research

要約

科学研究には、マルチモーダルデータよりも洗練された推論が必要です。これは、生物学で特に一般的な課題です。
AIアシスト研究のマルチモーダル大手言語モデル(MLLM)の最近の進歩にもかかわらず、既存のマルチモーダル推論ベンチマークは大学レベルの難易度までのみ対象とし、研究レベルのベンチマークは科学的発見に必要な複雑なマルチモーダル推論に達していない低レベルの認識を強調します。
このギャップを埋めるために、研究ワークフローに不可欠な3つの推論能力を評価するために設計された視覚的な質問応答(VQA)ベンチマークであるMicroVQAを紹介します:専門家の画像理解、仮説生成、および実験提案。
MicroVQAは、多様な顕微鏡モダリティの生物学の専門家によってキュレーションされた1,042の多肢選択質問(MCQ)で構成されており、VQAサンプルが実際の科学的実践を表すことを保証します。
ベンチマークの構築において、標準のMCQ生成方法は言語ショートカットを誘発し、新しい2段パイプラインを動機付けていることがわかります。
次に、エージェントベースの「RefineBot」がそれらを更新してショートカットを削除します。
最先端のMLLMのベンチマークは、53 \%のピーク性能を明らかにしています。
LLMが小さいモデルは、わずかにパフォーマンスの低いTOPモデルのみであり、言語ベースの推論はマルチモーダル推論よりも困難ではないことを示唆しています。
科学記事でチューニングすると、パフォーマンスが向上します。
考えられた連鎖応答の専門家分析は、知覚エラーが最も頻繁であり、その後知識エラーと過剰な一般化エラーが続くことを示しています。
これらの洞察は、マルチモーダルの科学的推論の課題を強調しており、MicroVQAがAI駆動型の生物医学研究を進める貴重なリソースであることを示しています。
MicroVQAは、https://huggingface.co/datasets/jmhb/microvqaで、プロジェクトページでhttps://jmhb0.github.io/microvqaで入手できます。

要約(オリジナル)

Scientific research demands sophisticated reasoning over multimodal data, a challenge especially prevalent in biology. Despite recent advances in multimodal large language models (MLLMs) for AI-assisted research, existing multimodal reasoning benchmarks only target up to college-level difficulty, while research-level benchmarks emphasize lower-level perception, falling short of the complex multimodal reasoning needed for scientific discovery. To bridge this gap, we introduce MicroVQA, a visual-question answering (VQA) benchmark designed to assess three reasoning capabilities vital in research workflows: expert image understanding, hypothesis generation, and experiment proposal. MicroVQA consists of 1,042 multiple-choice questions (MCQs) curated by biology experts across diverse microscopy modalities, ensuring VQA samples represent real scientific practice. In constructing the benchmark, we find that standard MCQ generation methods induce language shortcuts, motivating a new two-stage pipeline: an optimized LLM prompt structures question-answer pairs into MCQs; then, an agent-based `RefineBot’ updates them to remove shortcuts. Benchmarking on state-of-the-art MLLMs reveal a peak performance of 53\%; models with smaller LLMs only slightly underperform top models, suggesting that language-based reasoning is less challenging than multimodal reasoning; and tuning with scientific articles enhances performance. Expert analysis of chain-of-thought responses shows that perception errors are the most frequent, followed by knowledge errors and then overgeneralization errors. These insights highlight the challenges in multimodal scientific reasoning, showing MicroVQA is a valuable resource advancing AI-driven biomedical research. MicroVQA is available at https://huggingface.co/datasets/jmhb/microvqa, and project page at https://jmhb0.github.io/microvqa.

arxiv情報

著者 James Burgess,Jeffrey J Nirschl,Laura Bravo-Sánchez,Alejandro Lozano,Sanket Rajan Gupte,Jesus G. Galaz-Montoya,Yuhui Zhang,Yuchang Su,Disha Bhowmik,Zachary Coman,Sarina M. Hasan,Alexandra Johannesson,William D. Leineweber,Malvika G Nair,Ridhi Yarlagadda,Connor Zuraski,Wah Chiu,Sarah Cohen,Jan N. Hansen,Manuel D Leonetti,Chad Liu,Emma Lundberg,Serena Yeung-Levy
発行日 2025-03-17 17:33:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG, q-bio.CB | MicroVQA: A Multimodal Reasoning Benchmark for Microscopy-Based Scientific Research はコメントを受け付けていません

U2AD: Uncertainty-based Unsupervised Anomaly Detection Framework for Detecting T2 Hyperintensity in MRI Spinal Cord

要約

脊髄MR画像のT2高強度は、変性頸部骨髄障害などの条件のための重要なバイオマーカーです。
ただし、現在の臨床診断は主に手動評価に依存しています。
深い学習方法は病変の検出に有望を示していますが、ほとんどの監視されたアプローチは、大きな注釈付きデータセットに大きく依存しています。
異常な異常検出(UAD)は、異常なデータアノテーションの必要性を排除することにより、説得力のある代替手段を提供します。
ただし、既存のUADメソッドはキュレーションされた通常のデータセットに依存しており、ドメインシフトのために臨床データセットに適用すると、そのパフォーマンスは頻繁に劣化します。
これらの制限に対処するために、U2ADと呼ばれる不確実性に基づいた監視なしの異常検出フレームワークを提案します。
従来の方法とは異なり、U2ADは、ビジョントランスベースのアーキテクチャに基づいて構築された「マスクと再構成」パラダイムに従って、同じ臨床データセット内でトレーニングおよびテストされるように設計されています。
不確実なガイド付きマスキング戦略を導入して、通常の再構築と異常検出の間のタスクの競合を解決して、最適なバランスを達成します。
具体的には、モンテカルロサンプリング手法を採用して、トレーニング中の再構築の不確実性マッピングを推定します。
認識論的不確実性とaleatoricの両方の不確実性のガイダンスの下で再建トレーニングを最適化することにより、U2ADは地域を強調しながら全体的な再構成の差異を減らします。
実験結果は、U2ADが患者レベルの識別およびセグメントレベルのローカリゼーションタスクにおいて、既存の監視された監視されていない監視されていない方法を上回ることを示しています。
このフレームワークは、不確実性ガイダンスをUADに組み込むための新しいベンチマークを確立し、医療画像の異常検出におけるドメインシフトとタスクの競合に対処する臨床的有用性を強調しています。
私たちのコードは、https://github.com/zhibaishouheilab/u2adを利用できます

要約(オリジナル)

T2 hyperintensities in spinal cord MR images are crucial biomarkers for conditions such as degenerative cervical myelopathy. However, current clinical diagnoses primarily rely on manual evaluation. Deep learning methods have shown promise in lesion detection, but most supervised approaches are heavily dependent on large, annotated datasets. Unsupervised anomaly detection (UAD) offers a compelling alternative by eliminating the need for abnormal data annotations. However, existing UAD methods rely on curated normal datasets and their performance frequently deteriorates when applied to clinical datasets due to domain shifts. We propose an Uncertainty-based Unsupervised Anomaly Detection framework, termed U2AD, to address these limitations. Unlike traditional methods, U2AD is designed to be trained and tested within the same clinical dataset, following a ‘mask-and-reconstruction’ paradigm built on a Vision Transformer-based architecture. We introduce an uncertainty-guided masking strategy to resolve task conflicts between normal reconstruction and anomaly detection to achieve an optimal balance. Specifically, we employ a Monte-Carlo sampling technique to estimate reconstruction uncertainty mappings during training. By iteratively optimizing reconstruction training under the guidance of both epistemic and aleatoric uncertainty, U2AD reduces overall reconstruction variance while emphasizing regions. Experimental results demonstrate that U2AD outperforms existing supervised and unsupervised methods in patient-level identification and segment-level localization tasks. This framework establishes a new benchmark for incorporating uncertainty guidance into UAD, highlighting its clinical utility in addressing domain shifts and task conflicts in medical image anomaly detection. Our code is available: https://github.com/zhibaishouheilab/U2AD

arxiv情報

著者 Qi Zhang,Xiuyuan Chen,Ziyi He,Kun Wang,Lianming Wu,Hongxing Shen,Jianqi Sun
発行日 2025-03-17 17:33:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, eess.IV | U2AD: Uncertainty-based Unsupervised Anomaly Detection Framework for Detecting T2 Hyperintensity in MRI Spinal Cord はコメントを受け付けていません

DualPM: Dual Posed-Canonical Point Maps for 3D Shape and Pose Reconstruction

要約

データ表現の選択は、幾何学的なタスクにおける深い学習の成功における重要な要素です。
たとえば、Dust3Rは最近、視点に不変のポイントマップの概念を導入し、深さ予測を一般化し、静的シーンの3D再構成のすべての重要な問題をそのようなポイントマップの予測に減らすことができることを示しています。
この論文では、非常に異なる問題、つまり、3D形状と変形可能なオブジェクトのポーズの再構築について、類似の概念を開発します。
この目的のために、デュアルポイントマップ(dualPM)を導入します。ここでは、同じ画像から一対のポイントマップが抽出され、1つはオブジェクト上の3D位置にピクセルを関連付け、もう1つは安静時ポーズでのオブジェクトの標準バージョンに関連付けます。
また、ポイントマップをAmodal Reconstructionに拡張し、オブジェクトの完全な形状を取得するために自己閉鎖を介して見ます。
3D再構成と3Dポーズ推定がDualPMSの予測に減少することを示します。
この表現は、深いネットワークが予測する良いターゲットであることを経験的に実証します。
具体的には、馬のモデリングを検討し、dualPMSは馬の単一モデルで構成される3D合成データで純粋にトレーニングできることを示し、実際の画像に非常によく一般化します。
これにより、このタイプのオブジェクトの3D分析と再構築のための以前の方法の大幅なマージンによって改善されます。

要約(オリジナル)

The choice of data representation is a key factor in the success of deep learning in geometric tasks. For instance, DUSt3R has recently introduced the concept of viewpoint-invariant point maps, generalizing depth prediction, and showing that one can reduce all the key problems in the 3D reconstruction of static scenes to predicting such point maps. In this paper, we develop an analogous concept for a very different problem, namely, the reconstruction of the 3D shape and pose of deformable objects. To this end, we introduce the Dual Point Maps (DualPM), where a pair of point maps is extracted from the same image, one associating pixels to their 3D locations on the object, and the other to a canonical version of the object at rest pose. We also extend point maps to amodal reconstruction, seeing through self-occlusions to obtain the complete shape of the object. We show that 3D reconstruction and 3D pose estimation reduce to the prediction of the DualPMs. We demonstrate empirically that this representation is a good target for a deep network to predict; specifically, we consider modeling horses, showing that DualPMs can be trained purely on 3D synthetic data, consisting of a single model of a horse, while generalizing very well to real images. With this, we improve by a large margin previous methods for the 3D analysis and reconstruction of this type of objects.

arxiv情報

著者 Ben Kaye,Tomas Jakab,Shangzhe Wu,Christian Rupprecht,Andrea Vedaldi
発行日 2025-03-17 17:42:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | DualPM: Dual Posed-Canonical Point Maps for 3D Shape and Pose Reconstruction はコメントを受け付けていません

Video-Guided Foley Sound Generation with Multimodal Controls

要約

ビデオのサウンドエフェクトを生成するには、多くの場合、実生活のソースとサウンドデザインの柔軟なコントロールから大きく分岐する芸術的なサウンドエフェクトを作成する必要があります。
この問題に対処するために、テキスト、オーディオ、ビデオを介したマルチモーダルコンディショニングをサポートするビデオ誘導サウンド生成向けに設計されたモデルであるMultifoleyを紹介します。
サイレントビデオとテキストのプロンプトを考えると、Multifoleyは、ユーザーがきれいなサウンド(たとえば、風の騒音なしで回転するスケートボードホイールなど)またはより気まぐれな音(たとえば、猫の鳴き声のようにライオンのro音を作る)を作成できます。
Multifoleyを使用すると、ユーザーはサウンドエフェクト(SFX)ライブラリから参照オーディオまたはコンディショニング用の部分ビデオを選択できます。
私たちのモデルの重要な斬新さは、低品質のオーディオとプロフェッショナルSFX録音を備えたインターネットビデオデータセットの両方での共同トレーニングにあり、高品質のフルバンドワイド(48kHz)のオーディオ生成を可能にします。
自動評価と人間の研究を通じて、MultiFoleyがさまざまな条件付き入力間で同期された高品質の音を生成し、既存の方法を上回ることを実証します。
ビデオの結果については、プロジェクトページをご覧ください:https://ificl.github.io/multifoley/

要約(オリジナル)

Generating sound effects for videos often requires creating artistic sound effects that diverge significantly from real-life sources and flexible control in the sound design. To address this problem, we introduce MultiFoley, a model designed for video-guided sound generation that supports multimodal conditioning through text, audio, and video. Given a silent video and a text prompt, MultiFoley allows users to create clean sounds (e.g., skateboard wheels spinning without wind noise) or more whimsical sounds (e.g., making a lion’s roar sound like a cat’s meow). MultiFoley also allows users to choose reference audio from sound effects (SFX) libraries or partial videos for conditioning. A key novelty of our model lies in its joint training on both internet video datasets with low-quality audio and professional SFX recordings, enabling high-quality, full-bandwidth (48kHz) audio generation. Through automated evaluations and human studies, we demonstrate that MultiFoley successfully generates synchronized high-quality sounds across varied conditional inputs and outperforms existing methods. Please see our project page for video results: https://ificl.github.io/MultiFoley/

arxiv情報

著者 Ziyang Chen,Prem Seetharaman,Bryan Russell,Oriol Nieto,David Bourgin,Andrew Owens,Justin Salamon
発行日 2025-03-17 17:44:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.MM, cs.SD, eess.AS | Video-Guided Foley Sound Generation with Multimodal Controls はコメントを受け付けていません

CLIP’s Visual Embedding Projector is a Few-shot Cornucopia

要約

少数のショット分類のために、Clip(Radford et al。、2021)のような対照的な前提型の視覚モデルを適応させる問題を検討します。
文献は、凍結された視覚的特徴の線形分類器を学習し、単語の埋め込みを最適化する、または外部機能アダプターの学習を行うことにより、この問題に対処します。
最適化する「外部」パラメーターを追加することなく、少数のショットクリップ適応の代替方法を紹介します。
Visionエンコーダの埋め込み投影マトリックスを単に微調整すると、すべてのベースラインよりもパフォーマンスが向上することがわかります。
さらに、微調整されたマトリックスと前処理されたマトリックスの間の距離を使用した正規化トレーニングは、クリップを適応するための信頼性を高め、「検証なし」の設定で異なる学習レートで結果を安定させることを示します。
このシンプルなアプローチは、造語を巻きつけており、11人の少数の分類ベンチマーク、少数のショットクロスダタセット転送、ドメイン一般化、およびベースから新しいクラスの一般化で最先端のパフォーマンスをもたらします。
また、ProLipは、テスト時間適応の別のタスクに拡張されたときに迅速な調整を大幅に上回ることを示していますが、トレーニングは1桁速くなります。
コードはhttps://github.com/astra-vision/prolipで利用可能になります。

要約(オリジナル)

We consider the problem of adapting a contrastively pretrained vision-language model like CLIP (Radford et al., 2021) for few-shot classification. The literature addresses this problem by learning a linear classifier of the frozen visual features, optimizing word embeddings, or learning external feature adapters. We introduce an alternative way for few-shot CLIP adaptation without adding ”external” parameters to optimize. We find that simply fine-tuning the embedding projection matrix of the vision encoder leads to better performance than all baselines. Furthermore, we show that regularizing training with the distance between the fine-tuned and pretrained matrices adds reliability for adapting CLIP, making the results stable across different learning rates in the ”validation-free” setting. This simple approach, coined ProLIP, yields state-of-the-art performance on 11 few-shot classification benchmarks, few-shot cross-dataset transfer, domain generalization, and base-to-new class generalization. We also show that ProLIP significantly outperforms prompt tuning when extended to another task of test-time adaptation, while being one order of magnitude faster to train. Code will be made available at: https://github.com/astra-vision/ProLIP .

arxiv情報

著者 Mohammad Fahes,Tuan-Hung Vu,Andrei Bursuc,Patrick Pérez,Raoul de Charette
発行日 2025-03-17 17:52:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | CLIP’s Visual Embedding Projector is a Few-shot Cornucopia はコメントを受け付けていません

Infinite Mobility: Scalable High-Fidelity Synthesis of Articulated Objects via Procedural Generation

要約

具体化されたAIに関連する複数のタスクには、高品質の大規模な明確なオブジェクトが必死に必要です。
明確なオブジェクトを作成するためのほとんどの既存の方法は、データ駆動型またはシミュレーションベースのいずれかであり、トレーニングデータのスケールと品質、またはシミュレーションの忠実度と重労働によって制限されます。
この論文では、手続き上の生成を通じて高忠実度の明確なオブジェクトを合成するための新しい方法である無限のモビリティを提案します。
ユーザーの調査と定量的評価は、この方法が現在の最先端の方法を優れており、物理特性とメッシュ品質の両方で人間が発音したデータセットに匹敵する結果を生成できることを示しています。
さらに、合成データは、生成モデルのトレーニングデータとして使用できることを示し、次のステップスケールアップを可能にします。
コードはhttps://github.com/intern-nexus/infinite-mobilityで入手できます

要約(オリジナル)

Large-scale articulated objects with high quality are desperately needed for multiple tasks related to embodied AI. Most existing methods for creating articulated objects are either data-driven or simulation based, which are limited by the scale and quality of the training data or the fidelity and heavy labour of the simulation. In this paper, we propose Infinite Mobility, a novel method for synthesizing high-fidelity articulated objects through procedural generation. User study and quantitative evaluation demonstrate that our method can produce results that excel current state-of-the-art methods and are comparable to human-annotated datasets in both physics property and mesh quality. Furthermore, we show that our synthetic data can be used as training data for generative models, enabling next-step scaling up. Code is available at https://github.com/Intern-Nexus/Infinite-Mobility

arxiv情報

著者 Xinyu Lian,Zichao Yu,Ruiming Liang,Yitong Wang,Li Ray Luo,Kaixu Chen,Yuanzhen Zhou,Qihong Tang,Xudong Xu,Zhaoyang Lyu,Bo Dai,Jiangmiao Pang
発行日 2025-03-17 17:53:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Infinite Mobility: Scalable High-Fidelity Synthesis of Articulated Objects via Procedural Generation はコメントを受け付けていません

Robust Latent Matters: Boosting Image Generation with Sampling Error Synthesis

要約

通常、最近の画像生成スキームは、凍結画像トークネイザーに依存して、事前に構築された潜在スペースで画像分布をキャプチャします。
トークナイザーのパフォーマンスは成功した世代に不可欠な役割を果たしますが、現在の評価メトリック(例えばRFID)はトークン剤を正確に評価し、そのパフォーマンスを生成品質(例:GFID)と相関させることができません。
この論文では、個別の潜在空間における再構築と生成の品質の矛盾の理由を包括的に分析し、そこから潜在的な空間構造を促進するための新しいプラグアンドプレイトークン剤トレーニングスキームを提案します。
具体的には、サンプリングノイズ、つまり生成プロセスからサンプリングされた予期しないトークンをシミュレートするために、潜在的な摂動アプローチが提案されています。
潜在的な摂動により、(1)新規トークネイザー評価メトリック、つまりPFIDをさらに提案します。これにより、トークン剤のパフォーマンスが生成品質と成功し、(2)プラグアンドプレイのトークン剤トレーニングスキームが成功し、トークン剤の堅牢性を大幅に向上させ、生成品質と収束速度を高めます。
広範なベンチマークは、2つの自己回帰生成モデルを備えた11の高度な離散画像トークナザーで行われ、アプローチを検証します。
提案された潜在的な摂動で訓練されたトークン剤は、分類器のないガイダンス(CFG)を備えた顕著な1.60 GFIDと、$ \ SIM $ 400Mジェネレーターを備えたCFGを使用して3.45 GFIDを実現します。
コード:https://github.com/lxa9867/imagefolder。

要約(オリジナル)

Recent image generation schemes typically capture image distribution in a pre-constructed latent space relying on a frozen image tokenizer. Though the performance of tokenizer plays an essential role to the successful generation, its current evaluation metrics (e.g. rFID) fail to precisely assess the tokenizer and correlate its performance to the generation quality (e.g. gFID). In this paper, we comprehensively analyze the reason for the discrepancy of reconstruction and generation qualities in a discrete latent space, and, from which, we propose a novel plug-and-play tokenizer training scheme to facilitate latent space construction. Specifically, a latent perturbation approach is proposed to simulate sampling noises, i.e., the unexpected tokens sampled, from the generative process. With the latent perturbation, we further propose (1) a novel tokenizer evaluation metric, i.e., pFID, which successfully correlates the tokenizer performance to generation quality and (2) a plug-and-play tokenizer training scheme, which significantly enhances the robustness of tokenizer thus boosting the generation quality and convergence speed. Extensive benchmarking are conducted with 11 advanced discrete image tokenizers with 2 autoregressive generation models to validate our approach. The tokenizer trained with our proposed latent perturbation achieve a notable 1.60 gFID with classifier-free guidance (CFG) and 3.45 gFID without CFG with a $\sim$400M generator. Code: https://github.com/lxa9867/ImageFolder.

arxiv情報

著者 Kai Qiu,Xiang Li,Jason Kuen,Hao Chen,Xiaohao Xu,Jiuxiang Gu,Yinyi Luo,Bhiksha Raj,Zhe Lin,Marios Savvides
発行日 2025-03-17 17:54:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | Robust Latent Matters: Boosting Image Generation with Sampling Error Synthesis はコメントを受け付けていません