UniViTAR: Unified Vision Transformer with Native Resolution

要約

従来のビジョントランスは、入力解像度を標準化することにより視覚モデリングを簡素化し、しばしば自然な視覚データの変動性を無視し、空間的コンテキストの忠実度を損なうことができます。
予備的な調査では、本面的にネイティブ解像度のモデリングが調査されていますが、既存のアプローチには視覚的表現の観点からの系統的分析が依然として欠けています。
このギャップを埋めるために、マルチモーダルの時代に統一された視覚モダリティとネイティブ解像度のシナリオに合わせた均一なビジョンファンデーションモデルのファミリーであるUnivitarを紹介します。
当社のフレームワークは、最初に、複数の高度なコンポーネントを統合することにより、バニラパラダイムのアーキテクチャのアップグレードを実施します。
これらの改善に基づいて、2つのコアメカニズムを戦略的に組み合わせたプログレッシブトレーニングパラダイムが導入されます。(1)解像度カリキュラム学習、固定解像度の前登録からネイティブ解像度のチューニングへの移行により、VITの固有の適応性を可変長シーケンスに活用し、(2)視覚モダリティの適応を強化しました。
並行して、ハイブリッドトレーニングフレームワークは、凍結した教師モデルからの特徴蒸留とのシグモイドベースのコントラスト損失をさらに相乗的にし、それにより初期段階の収束を加速させます。
最後に、パブリックデータセットのみで訓練された、0.3Bから1Bの複数のモデルスケールにわたる外部実験は、その有効性を示しています。

要約(オリジナル)

Conventional Vision Transformer simplifies visual modeling by standardizing input resolutions, often disregarding the variability of natural visual data and compromising spatial-contextual fidelity. While preliminary explorations have superficially investigated native resolution modeling, existing approaches still lack systematic analysis from a visual representation perspective. To bridge this gap, we introduce UniViTAR, a family of homogeneous vision foundation models tailored for unified visual modality and native resolution scenario in the era of multimodal. Our framework first conducts architectural upgrades to the vanilla paradigm by integrating multiple advanced components. Building upon these improvements, a progressive training paradigm is introduced, which strategically combines two core mechanisms: (1) resolution curriculum learning, transitioning from fixed-resolution pretraining to native resolution tuning, thereby leveraging ViT’s inherent adaptability to variable-length sequences, and (2) visual modality adaptation via inter-batch image-video switching, which balances computational efficiency with enhanced temporal reasoning. In parallel, a hybrid training framework further synergizes sigmoid-based contrastive loss with feature distillation from a frozen teacher model, thereby accelerating early-stage convergence. Finally, trained exclusively on public datasets, externsive experiments across multiple model scales from 0.3B to 1B demonstrate its effectiveness.

arxiv情報

著者 Limeng Qiao,Yiyang Gan,Bairui Wang,Jie Qin,Shuang Xu,Siqi Yang,Lin Ma
発行日 2025-04-02 14:59:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | UniViTAR: Unified Vision Transformer with Native Resolution はコメントを受け付けていません

Spatial-R1: Enhancing MLLMs in Video Spatial Reasoning

要約

ビデオ理解のためにマルチモーダル大手言語モデル(MLLMS)の空間的推論能力を強化することは重要でありながら挑戦的です。
SPATIAL-R1は、2つの重要な貢献を含むターゲットアプローチ、SRのキュレーション、7つのタスクタイプにわたって自動的に生成されたQAペアを備えたScannetからの新しいビデオ空間推論データセット、および微調整のためのタスク固有のグループ相対ポリシー最適化(GRPO)の適用です。
GRPOを使用したSRのQWEN2.5-VL-7B-Instructモデルをトレーニングすることにより、Spatial-R1はVSIベンチベンチマークでパフォーマンスを大幅に高め、ベースラインで7.4 \%のゲインを達成し、強力な現代モデルを上回ります。
この作業は、ビデオMLLMの複雑な空間推論を改善するための専門データのキュレーションと最適化手法の有効性を検証します。

要約(オリジナル)

Enhancing the spatial reasoning capabilities of Multi-modal Large Language Models (MLLMs) for video understanding is crucial yet challenging. We present Spatial-R1, a targeted approach involving two key contributions: the curation of SR, a new video spatial reasoning dataset from ScanNet with automatically generated QA pairs across seven task types, and the application of Task-Specific Group Relative Policy Optimization (GRPO) for fine-tuning. By training the Qwen2.5-VL-7B-Instruct model on SR using GRPO, Spatial-R1 significantly advances performance on the VSI-Bench benchmark, achieving a 7.4\% gain over the baseline and outperforming strong contemporary models. This work validates the effectiveness of specialized data curation and optimization techniques for improving complex spatial reasoning in video MLLMs.

arxiv情報

著者 Kun Ouyang
発行日 2025-04-02 15:12:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Spatial-R1: Enhancing MLLMs in Video Spatial Reasoning はコメントを受け付けていません

Implicit Bias Injection Attacks against Text-to-Image Diffusion Models

要約

テキスト間拡散モデル(T2I DMS)の増殖により、日常生活にAIが生成した画像が存在するようになりました。
ただし、偏ったT2Iモデルは、特定の傾向を持つコンテンツを生成することができ、人々の認識に影響を与える可能性があります。
これらのバイアスの意図的な搾取は、誤解を招く情報を一般に伝えるリスクがあります。
バイアスに関する現在の研究では、主に、肌の色や性別などの認識可能な視覚パターンを備えた明示的なバイアスに対処しています。
このペーパーでは、明示的な視覚的特徴を欠いているが、さまざまなセマンティックコンテキストで多様な方法で現れる可能性のある暗黙のバイアスの新しい形式を紹介します。
この微妙で汎用性の高い性質により、このバイアスは、幅広いシナリオを検出し、伝播しやすく、適応できるようになります。
さらに、T2I拡散モデルに対する暗黙のバイアスインジェクション攻撃フレームワーク(IBI-attack)を提案します。
当社の攻撃モジュールは、ユーザー入力またはモデル再再トレーニングを直接操作することなく、プラグアンドプレイで事前に訓練された拡散モデルにシームレスに統合できます。
広範な実験は、元のセマンティクスを維持しながら、微妙で多様な修正を通じてバイアスを導入する際のスキームの有効性を検証します。
さまざまなシナリオでの攻撃の強い隠蔽と移転可能性は、アプローチの重要性をさらに強調しています。
コードはhttps://github.com/hannah1102/ibi-attacksで入手できます。

要約(オリジナル)

The proliferation of text-to-image diffusion models (T2I DMs) has led to an increased presence of AI-generated images in daily life. However, biased T2I models can generate content with specific tendencies, potentially influencing people’s perceptions. Intentional exploitation of these biases risks conveying misleading information to the public. Current research on bias primarily addresses explicit biases with recognizable visual patterns, such as skin color and gender. This paper introduces a novel form of implicit bias that lacks explicit visual features but can manifest in diverse ways across various semantic contexts. This subtle and versatile nature makes this bias challenging to detect, easy to propagate, and adaptable to a wide range of scenarios. We further propose an implicit bias injection attack framework (IBI-Attacks) against T2I diffusion models by precomputing a general bias direction in the prompt embedding space and adaptively adjusting it based on different inputs. Our attack module can be seamlessly integrated into pre-trained diffusion models in a plug-and-play manner without direct manipulation of user input or model retraining. Extensive experiments validate the effectiveness of our scheme in introducing bias through subtle and diverse modifications while preserving the original semantics. The strong concealment and transferability of our attack across various scenarios further underscore the significance of our approach. Code is available at https://github.com/Hannah1102/IBI-attacks.

arxiv情報

著者 Huayang Huang,Xiangye Jin,Jiaxu Miao,Yu Wu
発行日 2025-04-02 15:24:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | Implicit Bias Injection Attacks against Text-to-Image Diffusion Models はコメントを受け付けていません

Prompting Medical Vision-Language Models to Mitigate Diagnosis Bias by Generating Realistic Dermoscopic Images

要約

皮膚疾患の診断における人工知能(AI)は大幅に改善されていますが、これらのモデルは、特に肌の色などの敏感な属性に関して、サブグループ全体で偏ったパフォーマンスを頻繁に示すことです。
これらの問題に対処するために、新しい生成的AIベースのフレームワーク、すなわち皮膚科学拡散トランス(Dermdit)を提案します。これは、ビジョン言語モデルとマルチモーダルテキストイメージ学習を介して生成されたテキストプロンプトを活用して、新しいデモスコピック画像を生成します。
大規模なビジョン言語モデルを利用して、臨床診断のための非常に不均衡なデータセットで、過小評価されたグループ(患者、病気など)の表現を改善するために合成画像を生成するのに役立つ各皮膚鏡画像の正確で適切なプロンプトを生成します。
当社の広範な実験では、Dermditが高品質の画像を生成できるようにする、はるかに洞察に富んだ表現を提供する大規模なビジョン言語モデルを紹介します。
私たちのコードは、https://github.com/munia03/dermditで入手できます

要約(オリジナル)

Artificial Intelligence (AI) in skin disease diagnosis has improved significantly, but a major concern is that these models frequently show biased performance across subgroups, especially regarding sensitive attributes such as skin color. To address these issues, we propose a novel generative AI-based framework, namely, Dermatology Diffusion Transformer (DermDiT), which leverages text prompts generated via Vision Language Models and multimodal text-image learning to generate new dermoscopic images. We utilize large vision language models to generate accurate and proper prompts for each dermoscopic image which helps to generate synthetic images to improve the representation of underrepresented groups (patient, disease, etc.) in highly imbalanced datasets for clinical diagnoses. Our extensive experimentation showcases the large vision language models providing much more insightful representations, that enable DermDiT to generate high-quality images. Our code is available at https://github.com/Munia03/DermDiT

arxiv情報

著者 Nusrat Munia,Abdullah-Al-Zubaer Imran
発行日 2025-04-02 15:44:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Prompting Medical Vision-Language Models to Mitigate Diagnosis Bias by Generating Realistic Dermoscopic Images はコメントを受け付けていません

BOGausS: Better Optimized Gaussian Splatting

要約

3D Gaussian Splatting(3DGS)は、新しいビュー合成のための効率的なソリューションを提案しています。
そのフレームワークは、高速で忠実なレンダリングを提供します。
ニューラル放射輝度フィールド(NERF)などの他のソリューションよりも複雑ではありませんが、品質を犠牲にすることなく小さなモデルを構築する課題がまだいくつかあります。
この研究では、3DGSトレーニングプロセスの慎重な分析を実行し、新しい最適化方法論を提案します。
当社のより最適化されたガウススプラッティング(Bogauss)ソリューションは、品質の低下のない元の3DGよりも最大10倍軽量モデルを生成することができ、したがって、アートの州と比較してガウススプラッティングのパフォーマンスを大幅に向上させることができます。

要約(オリジナル)

3D Gaussian Splatting (3DGS) proposes an efficient solution for novel view synthesis. Its framework provides fast and high-fidelity rendering. Although less complex than other solutions such as Neural Radiance Fields (NeRF), there are still some challenges building smaller models without sacrificing quality. In this study, we perform a careful analysis of 3DGS training process and propose a new optimization methodology. Our Better Optimized Gaussian Splatting (BOGausS) solution is able to generate models up to ten times lighter than the original 3DGS with no quality degradation, thus significantly boosting the performance of Gaussian Splatting compared to the state of the art.

arxiv情報

著者 Stéphane Pateux,Matthieu Gendrin,Luce Morin,Théo Ladune,Xiaoran Jiang
発行日 2025-04-02 15:49:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | BOGausS: Better Optimized Gaussian Splatting はコメントを受け付けていません

CoMatcher: Multi-View Collaborative Feature Matching

要約

このペーパーでは、複雑なシナリオでの信頼できるトラック構造のためのマルチビューコラボレーションマッチング戦略を提案します。
画像セットに適用されるペアワイズマッチングパラダイムは、選択された独立したペアが重要な閉塞または極端な視点の変化を示す場合、しばしばあいまいな推定につながることが多いことを観察します。
この課題は、主に、限られた2ビュー観測に基づいて複雑な3D構造を解釈することにおける固有の不確実性に由来します。3Dから2Dへの投影は大きな情報損失につながるためです。
これに対処するために、(i)さまざまなビューから補完的なコンテキストキューを活用して、全体的な3Dシーンの理解を形成し、(ii)信頼できるグローバルソリューションを推測するためにクロスビュープロジェクションの一貫性を利用して、異なるビューからの補完的なコンテキストキューを活用するComatcherを紹介します。
Comatcherに基づいて、大規模なマッチングタスクのクロスビュー関係を完全に活用するグループワイズフレームワークを開発します。
さまざまな複雑なシナリオでの広範な実験は、主流の2ビューマッチングパラダイムに対する方法の優位性を示しています。

要約(オリジナル)

This paper proposes a multi-view collaborative matching strategy for reliable track construction in complex scenarios. We observe that the pairwise matching paradigms applied to image set matching often result in ambiguous estimation when the selected independent pairs exhibit significant occlusions or extreme viewpoint changes. This challenge primarily stems from the inherent uncertainty in interpreting intricate 3D structures based on limited two-view observations, as the 3D-to-2D projection leads to significant information loss. To address this, we introduce CoMatcher, a deep multi-view matcher to (i) leverage complementary context cues from different views to form a holistic 3D scene understanding and (ii) utilize cross-view projection consistency to infer a reliable global solution. Building on CoMatcher, we develop a groupwise framework that fully exploits cross-view relationships for large-scale matching tasks. Extensive experiments on various complex scenarios demonstrate the superiority of our method over the mainstream two-view matching paradigm.

arxiv情報

著者 Jintao Zhang,Zimin Xia,Mingyue Dong,Shuhan Shen,Linwei Yue,Xianwei Zheng
発行日 2025-04-02 16:27:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, I.2.10 | CoMatcher: Multi-View Collaborative Feature Matching はコメントを受け付けていません

A Diffusion-Based Framework for Occluded Object Movement

要約

シーン内のシームレスに移動するオブジェクトは、画像編集の一般的な要件ですが、既存の編集方法にとっては依然として課題です。
特に実際の画像の場合、閉塞の状況はさらに困難を増加させます。
主な難しさは、移動が進む前に閉塞部分を完了する必要があることです。
事前に訓練された拡散モデルに埋め込まれた現実世界の知識を活用するために、Diffoomという名前の閉塞されたオブジェクトの動き用に特別に設計された拡散ベースのフレームワークを提案します。
提案されているディフームは、オブジェクトの脱気圧と動きを同時に実行する2つの平行な分岐で構成されています。
脱気圧分岐は、バックグラウンドカラーフィル戦略と継続的に更新されたオブジェクトマスクを利用して、ターゲットオブジェクトの不明瞭な部分を完了する拡散プロセスに焦点を合わせます。
同時に、ムーブメントブランチは潜在的な最適化を採用して、完成したオブジェクトをターゲットの場所に配置し、オブジェクトを適切に統合するためにローカルテキストコンディショニングされたガイダンスを採用します。
広範な評価は、包括的なユーザー調査によってさらに検証される方法の優れたパフォーマンスを示しています。

要約(オリジナル)

Seamlessly moving objects within a scene is a common requirement for image editing, but it is still a challenge for existing editing methods. Especially for real-world images, the occlusion situation further increases the difficulty. The main difficulty is that the occluded portion needs to be completed before movement can proceed. To leverage the real-world knowledge embedded in the pre-trained diffusion models, we propose a Diffusion-based framework specifically designed for Occluded Object Movement, named DiffOOM. The proposed DiffOOM consists of two parallel branches that perform object de-occlusion and movement simultaneously. The de-occlusion branch utilizes a background color-fill strategy and a continuously updated object mask to focus the diffusion process on completing the obscured portion of the target object. Concurrently, the movement branch employs latent optimization to place the completed object in the target location and adopts local text-conditioned guidance to integrate the object into new surroundings appropriately. Extensive evaluations demonstrate the superior performance of our method, which is further validated by a comprehensive user study.

arxiv情報

著者 Zheng-Peng Duan,Jiawei Zhang,Siyu Liu,Zheng Lin,Chun-Le Guo,Dongqing Zou,Jimmy Ren,Chongyi Li
発行日 2025-04-02 16:29:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | A Diffusion-Based Framework for Occluded Object Movement はコメントを受け付けていません

TransientTables: Evaluating LLMs’ Reasoning on Temporally Evolving Semi-structured Tables

要約

人間は継続的に新しい発見をし、これらのブレークスルーにつながる一連の出来事を理解することは、科学と社会を進めるために不可欠です。
時間の経過とともに推論するこの能力により、将来のステップを特定し、私たちの生活に対する財政的および政治的決定の影響を理解することができます。
ただし、大規模な言語モデル(LLM)は通常、静的データセットでトレーニングされており、効果的な時間的推論を実行する能力を制限します。
LLMSの時間的推論能力を評価するために、複数の期間にわたって1,238のエンティティにまたがる14,000を超えるテーブルから派生した3,971の質問で構成されるTransienttables Datasetを提示します。
LLMSを活用してテンプレートと質問の両方を改良するテンプレートベースの質問生成パイプラインを紹介します。
さらに、最先端のLLMSを使用してベースライン結果を確立してベンチマークを作成します。
また、タスク分解を中心とした新しいモデリング戦略を紹介し、LLMパフォーマンスを向上させます。

要約(オリジナル)

Humans continuously make new discoveries, and understanding temporal sequence of events leading to these breakthroughs is essential for advancing science and society. This ability to reason over time allows us to identify future steps and understand the effects of financial and political decisions on our lives. However, large language models (LLMs) are typically trained on static datasets, limiting their ability to perform effective temporal reasoning. To assess the temporal reasoning capabilities of LLMs, we present the TRANSIENTTABLES dataset, which comprises 3,971 questions derived from over 14,000 tables, spanning 1,238 entities across multiple time periods. We introduce a template-based question-generation pipeline that harnesses LLMs to refine both templates and questions. Additionally, we establish baseline results using state-of-the-art LLMs to create a benchmark. We also introduce novel modeling strategies centered around task decomposition, enhancing LLM performance.

arxiv情報

著者 Abhilash Shankarampeta,Harsh Mahajan,Tushar Kataria,Dan Roth,Vivek Gupta
発行日 2025-04-02 16:34:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV, cs.IR | TransientTables: Evaluating LLMs’ Reasoning on Temporally Evolving Semi-structured Tables はコメントを受け付けていません

GMAI-VL-R1: Harnessing Reinforcement Learning for Multimodal Medical Reasoning

要約

一般的な医療AIの最近の進歩は大きな進歩を遂げていますが、既存のモデルには、複雑な医療意思決定に必要な推論能力がしばしば欠けています。
この論文では、推論能力を向上させるために強化学習(RL)によって強化されたマルチモーダル医療推論モデルであるGMAI-VL-R1を紹介します。
反復トレーニングを通じて、GMAI-VL-R1は意思決定を最適化し、診断の精度と臨床サポートを大幅に向上させます。
また、推論データ統合法を開発し、拒絶サンプリングを介して段階的な推論データを生成し、モデルの一般化をさらに強化します。
実験結果は、RLトレーニング後、GMAI-VL-R1が医療画像診断や視覚的な質問応答などのタスクに優れていることを示しています。
モデルは、監視された微調整による基本的な暗記を示していますが、RLは真の一般化に不可欠です。
私たちの仕事は、新しい評価ベンチマークを確立し、医療推論モデルの将来の進歩への道を開きます。
コード、データ、およびモデルは、\ href {https://github.com/uni-medical/gmai-vl-r1} {このリンク}でリリースされます。

要約(オリジナル)

Recent advances in general medical AI have made significant strides, but existing models often lack the reasoning capabilities needed for complex medical decision-making. This paper presents GMAI-VL-R1, a multimodal medical reasoning model enhanced by reinforcement learning (RL) to improve its reasoning abilities. Through iterative training, GMAI-VL-R1 optimizes decision-making, significantly boosting diagnostic accuracy and clinical support. We also develop a reasoning data synthesis method, generating step-by-step reasoning data via rejection sampling, which further enhances the model’s generalization. Experimental results show that after RL training, GMAI-VL-R1 excels in tasks such as medical image diagnosis and visual question answering. While the model demonstrates basic memorization with supervised fine-tuning, RL is crucial for true generalization. Our work establishes new evaluation benchmarks and paves the way for future advancements in medical reasoning models. Code, data, and model will be released at \href{https://github.com/uni-medical/GMAI-VL-R1}{this link}.

arxiv情報

著者 Yanzhou Su,Tianbin Li,Jiyao Liu,Chenglong Ma,Junzhi Ning,Cheng Tang,Sibo Ju,Jin Ye,Pengcheng Chen,Ming Hu,Shixiang Tang,Lihao Liu,Bin Fu,Wenqi Shao,Xiaowei Hu,Xiangwen Liao,Yuanfeng Ji,Junjun He
発行日 2025-04-02 16:43:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | GMAI-VL-R1: Harnessing Reinforcement Learning for Multimodal Medical Reasoning はコメントを受け付けていません

Meta ControlNet: Enhancing Task Adaptation via Meta Learning

要約

拡散ベースの画像合成は最近、広範囲にわたる注目を集めています。
特に、画像ベースのプロンプトを使用するControlNetは、Canny Edge Detectionなどの画像タスクに強力な機能を示し、これらのプロンプトと整合した画像を生成します。
ただし、Vanilla ControlNetは通常、単一のタスクに対して望ましい制御を実現するために、約5000ステップの広範なトレーニングが必要です。
最近のコンテキスト学習アプローチは、その適応性を改善しましたが、主にエッジベースのタスク用に、ペアの例に依存しています。
したがって、コントロールネットの可能性を最大限に発揮するために、2つの重要なオープンな問題にはまだ対処されていません:(i)特定のタスクのゼロショット制御と(ii)非エッジベースのタスクのより速い適応。
このホワイトペーパーでは、タスクに依存しないメタ学習手法を採用し、新しいレイヤーフリージングデザインを特徴とする新しいMeta Controlnetメソッドを紹介します。
メタコントロールネットは、5000から1000に制御能力を達成するための学習ステップを大幅に削減します。さらに、メタコントロールネットは、微調ューせずにエッジベースのタスクで直接ゼロショット適応性を示し、既存のすべての方法を上回る人間のポーズなどのより複雑な非エッジタスクで100個の微調整ステップでのみ制御を達成します。
コードはhttps://github.com/junjieyang97/meta-controlnetで入手できます。

要約(オリジナル)

Diffusion-based image synthesis has attracted extensive attention recently. In particular, ControlNet that uses image-based prompts exhibits powerful capability in image tasks such as canny edge detection and generates images well aligned with these prompts. However, vanilla ControlNet generally requires extensive training of around 5000 steps to achieve a desirable control for a single task. Recent context-learning approaches have improved its adaptability, but mainly for edge-based tasks, and rely on paired examples. Thus, two important open issues are yet to be addressed to reach the full potential of ControlNet: (i) zero-shot control for certain tasks and (ii) faster adaptation for non-edge-based tasks. In this paper, we introduce a novel Meta ControlNet method, which adopts the task-agnostic meta learning technique and features a new layer freezing design. Meta ControlNet significantly reduces learning steps to attain control ability from 5000 to 1000. Further, Meta ControlNet exhibits direct zero-shot adaptability in edge-based tasks without any finetuning, and achieves control within only 100 finetuning steps in more complex non-edge tasks such as Human Pose, outperforming all existing methods. The codes is available in https://github.com/JunjieYang97/Meta-ControlNet.

arxiv情報

著者 Junjie Yang,Jinze Zhao,Peihao Wang,Zhangyang Wang,Yingbin Liang
発行日 2025-04-02 16:43:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG | Meta ControlNet: Enhancing Task Adaptation via Meta Learning はコメントを受け付けていません