投稿者「jarxiv」のアーカイブ

Post-Training Quantization for Video Matting

要約 ビデオマットは、映画の制作や仮想現実などのアプリケーションにとって重要です … 続きを読む

カテゴリー: cs.AI, cs.CV | Post-Training Quantization for Video Matting はコメントを受け付けていません

VRBench: A Benchmark for Multi-Step Reasoning in Long Narrative Videos

要約 大規模なモデルのマルチステップ推論機能を評価するために作成された最初の長い … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.MM | VRBench: A Benchmark for Multi-Step Reasoning in Long Narrative Videos はコメントを受け付けていません

Med-URWKV: Pure RWKV With ImageNet Pre-training For Medical Image Segmentation

要約 医療画像セグメンテーションは、コンピューター支援診断と治療における基本的で … 続きを読む

カテゴリー: cs.CV, eess.IV | Med-URWKV: Pure RWKV With ImageNet Pre-training For Medical Image Segmentation はコメントを受け付けていません

Latent Action Learning Requires Supervision in the Presence of Distractors

要約 最近、Latent Action Policies(LAPO)によって開拓 … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.LG | Latent Action Learning Requires Supervision in the Presence of Distractors はコメントを受け付けていません

Q-Ponder: A Unified Training Pipeline for Reasoning-based Visual Quality Assessment

要約 最近の研究では、マルチモーダルの大手言語モデル(MLLM)が解釈可能な評価 … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.MM | Q-Ponder: A Unified Training Pipeline for Reasoning-based Visual Quality Assessment はコメントを受け付けていません

CreatiPoster: Towards Editable and Controllable Multi-Layer Graphic Design Generation

要約 グラフィックデザインは、商業的および個人的なコンテキストの両方で重要な役割 … 続きを読む

カテゴリー: cs.CV | CreatiPoster: Towards Editable and Controllable Multi-Layer Graphic Design Generation はコメントを受け付けていません

AIR: Zero-shot Generative Model Adaptation with Iterative Refinement

要約 ゼロショット生成モデル適応(ZSGM)は、テキストガイダンスのみを使用して … 続きを読む

カテゴリー: cs.AI, cs.CV | AIR: Zero-shot Generative Model Adaptation with Iterative Refinement はコメントを受け付けていません

ViC-Bench: Benchmarking Visual-Interleaved Chain-of-Thought Capability in MLLMs with Free-Style Intermediate State Representations

要約 視覚的に介入されたチェーンオブテアのチェーン(VI-COT)により、MLL … 続きを読む

カテゴリー: cs.CV | ViC-Bench: Benchmarking Visual-Interleaved Chain-of-Thought Capability in MLLMs with Free-Style Intermediate State Representations はコメントを受け付けていません

Object-Centric Latent Action Learning

要約 具体化されたAIの膨大な量の非標識インターネットビデオデータを活用すること … 続きを読む

カテゴリー: cs.AI, cs.CV | Object-Centric Latent Action Learning はコメントを受け付けていません

M4V: Multi-Modal Mamba for Text-to-Video Generation

要約 テキストからビデオへの生成は、コンテンツの作成を大幅に濃縮しており、強力な … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.LG | M4V: Multi-Modal Mamba for Text-to-Video Generation はコメントを受け付けていません