「cs.CV」カテゴリーアーカイブ

M4V: Multi-Modal Mamba for Text-to-Video Generation

投稿日: 2025年6月13日作成者: jarxiv

要約テキストからビデオへの生成は、コンテンツの作成を大幅に濃縮しており、強力な … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.LG | コメントを受け付けていません

Semi-Automated Quality Assurance in Digital Pathology: Tile Classification Approach

投稿日: 2025年6月13日作成者: jarxiv

要約品質保証は、マイナーなアーティファクトでさえ大きな効果をもたらす可能性のあ … 続きを読む →

カテゴリー: cs.CV, eess.IV | コメントを受け付けていません

Visually Descriptive Language Model for Vector Graphics Reasoning

投稿日: 2025年6月13日作成者: jarxiv

要約大きな進歩にもかかわらず、大規模なマルチモーダルモデル（LMM）は、形状、 … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.CV | コメントを受け付けていません

VINCIE: Unlocking In-context Image Editing from Video

投稿日: 2025年6月13日作成者: jarxiv

要約コンテキスト内画像編集は、テキストと以前に生成された画像を含むコンテキスト … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG, cs.MM | コメントを受け付けていません

CAT: A Conditional Adaptation Tailor for Efficient and Effective Instance-Specific Pansharpening on Real-World Data

投稿日: 2025年6月13日作成者: jarxiv

要約 Pansharpeningは、高解像度のパンクロマティック（PAN）画像と … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

ReGuidance: A Simple Diffusion Wrapper for Boosting Sample Quality on Hard Inverse Problems

投稿日: 2025年6月13日作成者: jarxiv

要約逆の問題を解決するための情報に基づいたデータ事前に、より一般的には報酬モデ … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.LG | コメントを受け付けていません

SpectralAR: Spectral Autoregressive Visual Generation

投稿日: 2025年6月13日作成者: jarxiv

要約自己回帰視覚生成は、拡散モデルと比較して、そのスケーラビリティと他のモダリ … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.LG | コメントを受け付けていません

MMMG: A Massive, Multidisciplinary, Multi-Tier Generation Benchmark for Text-to-Image Reasoning

投稿日: 2025年6月13日作成者: jarxiv

要約このホワイトペーパーでは、画像生成モデルの推論能力を調査するために、大規模 … 続きを読む →

カテゴリー: cs.CL, cs.CV | コメントを受け付けていません

Beyond Attention or Similarity: Maximizing Conditional Diversity for Token Pruning in MLLMs

投稿日: 2025年6月13日作成者: jarxiv

要約マルチモーダルの大手言語モデル（MLLMS）では、入力視覚トークンの長さは … 続きを読む →

カテゴリー: cs.AI, cs.CV | コメントを受け付けていません

Eye, Robot: Learning to Look to Act with a BC-RL Perception-Action Loop

投稿日: 2025年6月13日作成者: jarxiv

要約人間は視覚的な世界を受動的に観察しません – 私たちは行動する … 続きを読む →

カテゴリー: cs.CV, cs.RO | コメントを受け付けていません

「cs.CV」カテゴリーアーカイブ

M4V: Multi-Modal Mamba for Text-to-Video Generation

Semi-Automated Quality Assurance in Digital Pathology: Tile Classification Approach

Visually Descriptive Language Model for Vector Graphics Reasoning

VINCIE: Unlocking In-context Image Editing from Video

CAT: A Conditional Adaptation Tailor for Efficient and Effective Instance-Specific Pansharpening on Real-World Data

ReGuidance: A Simple Diffusion Wrapper for Boosting Sample Quality on Hard Inverse Problems

SpectralAR: Spectral Autoregressive Visual Generation

MMMG: A Massive, Multidisciplinary, Multi-Tier Generation Benchmark for Text-to-Image Reasoning

Beyond Attention or Similarity: Maximizing Conditional Diversity for Token Pruning in MLLMs

Eye, Robot: Learning to Look to Act with a BC-RL Perception-Action Loop

最近の投稿

最近のコメント

アーカイブ

カテゴリー