投稿者「jarxiv」のアーカイブ

LLaDA-V: Large Language Diffusion Models with Visual Instruction Tuning

要約 この作業では、現在のマルチモーダルアプローチで支配的な自己網性パラダイムか … 続きを読む

カテゴリー: cs.CL, cs.CV, cs.LG | LLaDA-V: Large Language Diffusion Models with Visual Instruction Tuning はコメントを受け付けていません

NovelSeek: When Agent Becomes the Scientist — Building Closed-Loop System from Hypothesis to Verification

要約 人工知能(AI)は、科学研究のパラダイムの変換を加速し、研究効率を高めるだ … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV | NovelSeek: When Agent Becomes the Scientist — Building Closed-Loop System from Hypothesis to Verification はコメントを受け付けていません

Efficient Correlation Volume Sampling for Ultra-High-Resolution Optical Flow Estimation

要約 最近の光フロー推定方法は、しばしば密な全ペア相関ボリュームからのローカルコ … 続きを読む

カテゴリー: cs.CV, cs.LG | Efficient Correlation Volume Sampling for Ultra-High-Resolution Optical Flow Estimation はコメントを受け付けていません

Motion by Queries: Identity-Motion Trade-offs in Text-to-Video Generation

要約 テキスト間拡散モデルは、テキストの説明からコヒーレントなビデオクリップを生 … 続きを読む

カテゴリー: cs.CV | Motion by Queries: Identity-Motion Trade-offs in Text-to-Video Generation はコメントを受け付けていません

MedFrameQA: A Multi-Image Medical VQA Benchmark for Clinical Reasoning

要約 既存の医療用VQAベンチマークは、主に単一イメージ分析に焦点を当てています … 続きを読む

カテゴリー: cs.CL, cs.CV | MedFrameQA: A Multi-Image Medical VQA Benchmark for Clinical Reasoning はコメントを受け付けていません

Harnessing the Computation Redundancy in ViTs to Boost Adversarial Transferability

要約 Vision Transformers(VITS)は、多くの安全性クリティ … 続きを読む

カテゴリー: cs.CV | Harnessing the Computation Redundancy in ViTs to Boost Adversarial Transferability はコメントを受け付けていません

UniPhy: Learning a Unified Constitutive Model for Inverse Physics Simulation

要約 私たちは、多様な材料の物理的特性をコードすることができる一般的な潜在的な神 … 続きを読む

カテゴリー: cs.CV | UniPhy: Learning a Unified Constitutive Model for Inverse Physics Simulation はコメントを受け付けていません

OpenSeg-R: Improving Open-Vocabulary Segmentation via Step-by-Step Visual Reasoning

要約 オープンボキャブラリーセグメンテーション(OVS)は、事前定義されたカテゴ … 続きを読む

カテゴリー: cs.CV | OpenSeg-R: Improving Open-Vocabulary Segmentation via Step-by-Step Visual Reasoning はコメントを受け付けていません

Creatively Upscaling Images with Global-Regional Priors

要約 現代の拡散モデルは、テキストからイメージの生成において顕著な能力を示してい … 続きを読む

カテゴリー: cs.CV, cs.MM | Creatively Upscaling Images with Global-Regional Priors はコメントを受け付けていません

Incorporating Visual Correspondence into Diffusion Model for Virtual Try-On

要約 拡散モデルは、Virtual Try-On(VTON)タスクで予備的な成功 … 続きを読む

カテゴリー: cs.CV, cs.MM | Incorporating Visual Correspondence into Diffusion Model for Virtual Try-On はコメントを受け付けていません