投稿者「jarxiv」のアーカイブ

From Data to Modeling: Fully Open-vocabulary Scene Graph Generation

要約 従来のクローズドセットモデルの制限を克服する完全にオープンボキャブラリーシ … 続きを読む

カテゴリー: cs.CV | From Data to Modeling: Fully Open-vocabulary Scene Graph Generation はコメントを受け付けていません

Refining Few-Step Text-to-Multiview Diffusion via Reinforcement Learning

要約 単一のテキストプロンプトからコヒーレントなマルチビュー画像を生成するテキス … 続きを読む

カテゴリー: cs.CV, cs.LG | Refining Few-Step Text-to-Multiview Diffusion via Reinforcement Learning はコメントを受け付けていません

MEBench: A Novel Benchmark for Understanding Mutual Exclusivity Bias in Vision-Language Models

要約 このペーパーでは、単語学習中に子供に観察される認知現象である相互排他性(M … 続きを読む

カテゴリー: cs.CV | MEBench: A Novel Benchmark for Understanding Mutual Exclusivity Bias in Vision-Language Models はコメントを受け付けていません

Understanding Generalization in Diffusion Models via Probability Flow Distance

要約 拡散モデルは、トレーニングデータを超えて一般化する高品質のサンプルを生成で … 続きを読む

カテゴリー: cs.CV, cs.LG | Understanding Generalization in Diffusion Models via Probability Flow Distance はコメントを受け付けていません

Unsupervised Detection of Distribution Shift in Inverse Problems using Diffusion Models

要約 拡散モデルは、イメージングの逆の問題の事前に広く使用されています。 ただし … 続きを読む

カテゴリー: cs.CV | Unsupervised Detection of Distribution Shift in Inverse Problems using Diffusion Models はコメントを受け付けていません

TUNA: Comprehensive Fine-grained Temporal Understanding Evaluation on Dense Dynamic Videos

要約 ビデオは、カメラ、シーン、アクション、属性など、時間の経過とともに動的な関 … 続きを読む

カテゴリー: cs.CV, cs.DB, cs.MM | TUNA: Comprehensive Fine-grained Temporal Understanding Evaluation on Dense Dynamic Videos はコメントを受け付けていません

OB3D: A New Dataset for Benchmarking Omnidirectional 3D Reconstruction Using Blender

要約 神経放射輝度フィールド(NERF)と3Dガウスのスプラッティング(3DG) … 続きを読む

カテゴリー: cs.CV | OB3D: A New Dataset for Benchmarking Omnidirectional 3D Reconstruction Using Blender はコメントを受け付けていません

Agentic 3D Scene Generation with Spatially Contextualized VLMs

要約 ビジョン言語モデル(VLM)によって有効になったマルチモーダルコンテンツ生 … 続きを読む

カテゴリー: cs.CV, cs.GR | Agentic 3D Scene Generation with Spatially Contextualized VLMs はコメントを受け付けていません

FUDOKI: Discrete Flow-based Unified Understanding and Generation via Kinetic-Optimal Velocities

要約 大規模な言語モデル(LLMS)の急速な進歩は、単一のフレームワーク内で視覚 … 続きを読む

カテゴリー: cs.CV | FUDOKI: Discrete Flow-based Unified Understanding and Generation via Kinetic-Optimal Velocities はコメントを受け付けていません

Improvement Strategies for Few-Shot Learning in OCT Image Classification of Rare Retinal Diseases

要約 このペーパーでは、少数のショット学習を使用して、OCT診断画像を主要かつ希 … 続きを読む

カテゴリー: cs.AI, cs.CV, eess.IV | Improvement Strategies for Few-Shot Learning in OCT Image Classification of Rare Retinal Diseases はコメントを受け付けていません