cs.CV」カテゴリーアーカイブ

Visual Product Graph: Bridging Visual Products And Composite Images For End-to-End Style Recommendations

要約 意味的に類似しているが視覚的に異なるコンテンツを取得することは、視覚検索シ … 続きを読む

カテゴリー: cs.CV | Visual Product Graph: Bridging Visual Products And Composite Images For End-to-End Style Recommendations はコメントを受け付けていません

Active-O3: Empowering Multimodal Large Language Models with Active Perception via GRPO

要約 アクティブな知覚としても知られるアクティブビジョンは、タスク関連の情報を収 … 続きを読む

カテゴリー: cs.AI, cs.CV | Active-O3: Empowering Multimodal Large Language Models with Active Perception via GRPO はコメントを受け付けていません

LazyVLM: Neuro-Symbolic Approach to Video Analytics

要約 現在のビデオ分析アプローチは、柔軟性と効率性の基本的なトレードオフに直面し … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.DB, cs.IR, cs.MM | LazyVLM: Neuro-Symbolic Approach to Video Analytics はコメントを受け付けていません

ID-Align: RoPE-Conscious Position Remapping for Dynamic High-Resolution Adaptation in Vision-Language Models

要約 現在、ビジョン言語モデル(VLMS)パフォーマンスを強化するための一般的な … 続きを読む

カテゴリー: cs.CL, cs.CV | ID-Align: RoPE-Conscious Position Remapping for Dynamic High-Resolution Adaptation in Vision-Language Models はコメントを受け付けていません

Bringing Objects to Life: training-free 4D generation from 3D objects through view consistent noise

要約 生成モデルの最近の進歩により、仮想世界、メディア、およびゲームのアプリケー … 続きを読む

カテゴリー: cs.CV | Bringing Objects to Life: training-free 4D generation from 3D objects through view consistent noise はコメントを受け付けていません

When Are Concepts Erased From Diffusion Models?

要約 モデルが特定の概念を生成するのを選択的に防止する能力である概念消去は、関心 … 続きを読む

カテゴリー: cs.CV, cs.LG | When Are Concepts Erased From Diffusion Models? はコメントを受け付けていません

DetailFlow: 1D Coarse-to-Fine Autoregressive Image Generation via Next-Detail Prediction

要約 このホワイトペーパーでは、新しい次のデテール予測戦略を介して画像をモデル化 … 続きを読む

カテゴリー: cs.CV | DetailFlow: 1D Coarse-to-Fine Autoregressive Image Generation via Next-Detail Prediction はコメントを受け付けていません

Mitigating Hallucination in Large Vision-Language Models via Adaptive Attention Calibration

要約 大きなビジョン言語モデル(LVLMS)は、マルチモーダルタスクで印象的なパ … 続きを読む

カテゴリー: cs.CL, cs.CV | Mitigating Hallucination in Large Vision-Language Models via Adaptive Attention Calibration はコメントを受け付けていません

Policy Optimized Text-to-Image Pipeline Design

要約 テキストからイメージの生成は、単一のモノリシックモデルを超えて複雑なマルチ … 続きを読む

カテゴリー: cs.AI, cs.CV | Policy Optimized Text-to-Image Pipeline Design はコメントを受け付けていません

MV-CoLight: Efficient Object Compositing with Consistent Lighting and Shadow Generation

要約 オブジェクトコンポジットは、拡張現実(AR)と具体化されたインテリジェンス … 続きを読む

カテゴリー: cs.CV | MV-CoLight: Efficient Object Compositing with Consistent Lighting and Shadow Generation はコメントを受け付けていません