投稿者「jarxiv」のアーカイブ

LLaDA-V: Large Language Diffusion Models with Visual Instruction Tuning

投稿日: 2025年5月23日作成者: jarxiv

要約この作業では、現在のマルチモーダルアプローチで支配的な自己網性パラダイムか … 続きを読む →

カテゴリー: cs.CL, cs.CV, cs.LG | コメントを受け付けていません

NovelSeek: When Agent Becomes the Scientist — Building Closed-Loop System from Hypothesis to Verification

投稿日: 2025年5月23日作成者: jarxiv

要約人工知能（AI）は、科学研究のパラダイムの変換を加速し、研究効率を高めるだ … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.CV | コメントを受け付けていません

Efficient Correlation Volume Sampling for Ultra-High-Resolution Optical Flow Estimation

投稿日: 2025年5月23日作成者: jarxiv

要約最近の光フロー推定方法は、しばしば密な全ペア相関ボリュームからのローカルコ … 続きを読む →

カテゴリー: cs.CV, cs.LG | コメントを受け付けていません

Motion by Queries: Identity-Motion Trade-offs in Text-to-Video Generation

投稿日: 2025年5月23日作成者: jarxiv

要約テキスト間拡散モデルは、テキストの説明からコヒーレントなビデオクリップを生 … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

MedFrameQA: A Multi-Image Medical VQA Benchmark for Clinical Reasoning

投稿日: 2025年5月23日作成者: jarxiv

要約既存の医療用VQAベンチマークは、主に単一イメージ分析に焦点を当てています … 続きを読む →

カテゴリー: cs.CL, cs.CV | コメントを受け付けていません

Harnessing the Computation Redundancy in ViTs to Boost Adversarial Transferability

投稿日: 2025年5月23日作成者: jarxiv

要約 Vision Transformers（VITS）は、多くの安全性クリティ … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

UniPhy: Learning a Unified Constitutive Model for Inverse Physics Simulation

投稿日: 2025年5月23日作成者: jarxiv

要約私たちは、多様な材料の物理的特性をコードすることができる一般的な潜在的な神 … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

OpenSeg-R: Improving Open-Vocabulary Segmentation via Step-by-Step Visual Reasoning

投稿日: 2025年5月23日作成者: jarxiv

要約オープンボキャブラリーセグメンテーション（OVS）は、事前定義されたカテゴ … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Creatively Upscaling Images with Global-Regional Priors

投稿日: 2025年5月23日作成者: jarxiv

要約現代の拡散モデルは、テキストからイメージの生成において顕著な能力を示してい … 続きを読む →

カテゴリー: cs.CV, cs.MM | コメントを受け付けていません

Incorporating Visual Correspondence into Diffusion Model for Virtual Try-On

投稿日: 2025年5月23日作成者: jarxiv

要約拡散モデルは、Virtual Try-On（VTON）タスクで予備的な成功 … 続きを読む →

カテゴリー: cs.CV, cs.MM | コメントを受け付けていません

投稿者「jarxiv」のアーカイブ

LLaDA-V: Large Language Diffusion Models with Visual Instruction Tuning

NovelSeek: When Agent Becomes the Scientist — Building Closed-Loop System from Hypothesis to Verification

Efficient Correlation Volume Sampling for Ultra-High-Resolution Optical Flow Estimation

Motion by Queries: Identity-Motion Trade-offs in Text-to-Video Generation

MedFrameQA: A Multi-Image Medical VQA Benchmark for Clinical Reasoning

Harnessing the Computation Redundancy in ViTs to Boost Adversarial Transferability

UniPhy: Learning a Unified Constitutive Model for Inverse Physics Simulation

OpenSeg-R: Improving Open-Vocabulary Segmentation via Step-by-Step Visual Reasoning

Creatively Upscaling Images with Global-Regional Priors

Incorporating Visual Correspondence into Diffusion Model for Virtual Try-On

最近の投稿

最近のコメント

アーカイブ

カテゴリー