投稿者「jarxiv」のアーカイブ

Post-Training Quantization for Video Matting

投稿日: 2025年6月13日作成者: jarxiv

要約ビデオマットは、映画の制作や仮想現実などのアプリケーションにとって重要です … 続きを読む →

カテゴリー: cs.AI, cs.CV | コメントを受け付けていません

VRBench: A Benchmark for Multi-Step Reasoning in Long Narrative Videos

投稿日: 2025年6月13日作成者: jarxiv

要約大規模なモデルのマルチステップ推論機能を評価するために作成された最初の長い … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.MM | コメントを受け付けていません

Med-URWKV: Pure RWKV With ImageNet Pre-training For Medical Image Segmentation

投稿日: 2025年6月13日作成者: jarxiv

要約医療画像セグメンテーションは、コンピューター支援診断と治療における基本的で … 続きを読む →

カテゴリー: cs.CV, eess.IV | コメントを受け付けていません

Latent Action Learning Requires Supervision in the Presence of Distractors

投稿日: 2025年6月13日作成者: jarxiv

要約最近、Latent Action Policies（LAPO）によって開拓 … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.LG | コメントを受け付けていません

Q-Ponder: A Unified Training Pipeline for Reasoning-based Visual Quality Assessment

投稿日: 2025年6月13日作成者: jarxiv

要約最近の研究では、マルチモーダルの大手言語モデル（MLLM）が解釈可能な評価 … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.MM | コメントを受け付けていません

CreatiPoster: Towards Editable and Controllable Multi-Layer Graphic Design Generation

投稿日: 2025年6月13日作成者: jarxiv

要約グラフィックデザインは、商業的および個人的なコンテキストの両方で重要な役割 … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

AIR: Zero-shot Generative Model Adaptation with Iterative Refinement

投稿日: 2025年6月13日作成者: jarxiv

要約ゼロショット生成モデル適応（ZSGM）は、テキストガイダンスのみを使用して … 続きを読む →

カテゴリー: cs.AI, cs.CV | コメントを受け付けていません

ViC-Bench: Benchmarking Visual-Interleaved Chain-of-Thought Capability in MLLMs with Free-Style Intermediate State Representations

投稿日: 2025年6月13日作成者: jarxiv

要約視覚的に介入されたチェーンオブテアのチェーン（VI-COT）により、MLL … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Object-Centric Latent Action Learning

投稿日: 2025年6月13日作成者: jarxiv

要約具体化されたAIの膨大な量の非標識インターネットビデオデータを活用すること … 続きを読む →

カテゴリー: cs.AI, cs.CV | コメントを受け付けていません

M4V: Multi-Modal Mamba for Text-to-Video Generation

投稿日: 2025年6月13日作成者: jarxiv

要約テキストからビデオへの生成は、コンテンツの作成を大幅に濃縮しており、強力な … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.LG | コメントを受け付けていません

投稿者「jarxiv」のアーカイブ

Post-Training Quantization for Video Matting

VRBench: A Benchmark for Multi-Step Reasoning in Long Narrative Videos

Med-URWKV: Pure RWKV With ImageNet Pre-training For Medical Image Segmentation

Latent Action Learning Requires Supervision in the Presence of Distractors

Q-Ponder: A Unified Training Pipeline for Reasoning-based Visual Quality Assessment

CreatiPoster: Towards Editable and Controllable Multi-Layer Graphic Design Generation

AIR: Zero-shot Generative Model Adaptation with Iterative Refinement

ViC-Bench: Benchmarking Visual-Interleaved Chain-of-Thought Capability in MLLMs with Free-Style Intermediate State Representations

Object-Centric Latent Action Learning

M4V: Multi-Modal Mamba for Text-to-Video Generation

最近の投稿

最近のコメント

アーカイブ

カテゴリー