投稿者「jarxiv」のアーカイブ

From Data to Modeling: Fully Open-vocabulary Scene Graph Generation

投稿日: 2025年5月27日作成者: jarxiv

要約従来のクローズドセットモデルの制限を克服する完全にオープンボキャブラリーシ … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Refining Few-Step Text-to-Multiview Diffusion via Reinforcement Learning

投稿日: 2025年5月27日作成者: jarxiv

要約単一のテキストプロンプトからコヒーレントなマルチビュー画像を生成するテキス … 続きを読む →

カテゴリー: cs.CV, cs.LG | コメントを受け付けていません

MEBench: A Novel Benchmark for Understanding Mutual Exclusivity Bias in Vision-Language Models

投稿日: 2025年5月27日作成者: jarxiv

要約このペーパーでは、単語学習中に子供に観察される認知現象である相互排他性（M … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Understanding Generalization in Diffusion Models via Probability Flow Distance

投稿日: 2025年5月27日作成者: jarxiv

要約拡散モデルは、トレーニングデータを超えて一般化する高品質のサンプルを生成で … 続きを読む →

カテゴリー: cs.CV, cs.LG | コメントを受け付けていません

Unsupervised Detection of Distribution Shift in Inverse Problems using Diffusion Models

投稿日: 2025年5月27日作成者: jarxiv

要約拡散モデルは、イメージングの逆の問題の事前に広く使用されています。ただし … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

TUNA: Comprehensive Fine-grained Temporal Understanding Evaluation on Dense Dynamic Videos

投稿日: 2025年5月27日作成者: jarxiv

要約ビデオは、カメラ、シーン、アクション、属性など、時間の経過とともに動的な関 … 続きを読む →

カテゴリー: cs.CV, cs.DB, cs.MM | コメントを受け付けていません

OB3D: A New Dataset for Benchmarking Omnidirectional 3D Reconstruction Using Blender

投稿日: 2025年5月27日作成者: jarxiv

要約神経放射輝度フィールド（NERF）と3Dガウスのスプラッティング（3DG） … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Agentic 3D Scene Generation with Spatially Contextualized VLMs

投稿日: 2025年5月27日作成者: jarxiv

要約ビジョン言語モデル（VLM）によって有効になったマルチモーダルコンテンツ生 … 続きを読む →

カテゴリー: cs.CV, cs.GR | コメントを受け付けていません

FUDOKI: Discrete Flow-based Unified Understanding and Generation via Kinetic-Optimal Velocities

投稿日: 2025年5月27日作成者: jarxiv

要約大規模な言語モデル（LLMS）の急速な進歩は、単一のフレームワーク内で視覚 … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Improvement Strategies for Few-Shot Learning in OCT Image Classification of Rare Retinal Diseases

投稿日: 2025年5月27日作成者: jarxiv

要約このペーパーでは、少数のショット学習を使用して、OCT診断画像を主要かつ希 … 続きを読む →

カテゴリー: cs.AI, cs.CV, eess.IV | コメントを受け付けていません

投稿者「jarxiv」のアーカイブ

From Data to Modeling: Fully Open-vocabulary Scene Graph Generation

Refining Few-Step Text-to-Multiview Diffusion via Reinforcement Learning

MEBench: A Novel Benchmark for Understanding Mutual Exclusivity Bias in Vision-Language Models

Understanding Generalization in Diffusion Models via Probability Flow Distance

Unsupervised Detection of Distribution Shift in Inverse Problems using Diffusion Models

TUNA: Comprehensive Fine-grained Temporal Understanding Evaluation on Dense Dynamic Videos

OB3D: A New Dataset for Benchmarking Omnidirectional 3D Reconstruction Using Blender

Agentic 3D Scene Generation with Spatially Contextualized VLMs

FUDOKI: Discrete Flow-based Unified Understanding and Generation via Kinetic-Optimal Velocities

Improvement Strategies for Few-Shot Learning in OCT Image Classification of Rare Retinal Diseases

最近の投稿

最近のコメント

アーカイブ

カテゴリー