「cs.AI」カテゴリーアーカイブ

VRBench: A Benchmark for Multi-Step Reasoning in Long Narrative Videos

投稿日: 2025年6月13日作成者: jarxiv

要約大規模なモデルのマルチステップ推論機能を評価するために作成された最初の長い … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.MM | コメントを受け付けていません

Latent Action Learning Requires Supervision in the Presence of Distractors

投稿日: 2025年6月13日作成者: jarxiv

要約最近、Latent Action Policies（LAPO）によって開拓 … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.LG | コメントを受け付けていません

Q-Ponder: A Unified Training Pipeline for Reasoning-based Visual Quality Assessment

投稿日: 2025年6月13日作成者: jarxiv

要約最近の研究では、マルチモーダルの大手言語モデル（MLLM）が解釈可能な評価 … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.MM | コメントを受け付けていません

AIR: Zero-shot Generative Model Adaptation with Iterative Refinement

投稿日: 2025年6月13日作成者: jarxiv

要約ゼロショット生成モデル適応（ZSGM）は、テキストガイダンスのみを使用して … 続きを読む →

カテゴリー: cs.AI, cs.CV | コメントを受け付けていません

Object-Centric Latent Action Learning

投稿日: 2025年6月13日作成者: jarxiv

要約具体化されたAIの膨大な量の非標識インターネットビデオデータを活用すること … 続きを読む →

カテゴリー: cs.AI, cs.CV | コメントを受け付けていません

M4V: Multi-Modal Mamba for Text-to-Video Generation

投稿日: 2025年6月13日作成者: jarxiv

要約テキストからビデオへの生成は、コンテンツの作成を大幅に濃縮しており、強力な … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.LG | コメントを受け付けていません

Visually Descriptive Language Model for Vector Graphics Reasoning

投稿日: 2025年6月13日作成者: jarxiv

要約大きな進歩にもかかわらず、大規模なマルチモーダルモデル（LMM）は、形状、 … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.CV | コメントを受け付けていません

VINCIE: Unlocking In-context Image Editing from Video

投稿日: 2025年6月13日作成者: jarxiv

要約コンテキスト内画像編集は、テキストと以前に生成された画像を含むコンテキスト … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG, cs.MM | コメントを受け付けていません

ReGuidance: A Simple Diffusion Wrapper for Boosting Sample Quality on Hard Inverse Problems

投稿日: 2025年6月13日作成者: jarxiv

要約逆の問題を解決するための情報に基づいたデータ事前に、より一般的には報酬モデ … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.LG | コメントを受け付けていません

SpectralAR: Spectral Autoregressive Visual Generation

投稿日: 2025年6月13日作成者: jarxiv

要約自己回帰視覚生成は、拡散モデルと比較して、そのスケーラビリティと他のモダリ … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.LG | コメントを受け付けていません

「cs.AI」カテゴリーアーカイブ

VRBench: A Benchmark for Multi-Step Reasoning in Long Narrative Videos

Latent Action Learning Requires Supervision in the Presence of Distractors

Q-Ponder: A Unified Training Pipeline for Reasoning-based Visual Quality Assessment

AIR: Zero-shot Generative Model Adaptation with Iterative Refinement

Object-Centric Latent Action Learning

M4V: Multi-Modal Mamba for Text-to-Video Generation

Visually Descriptive Language Model for Vector Graphics Reasoning

VINCIE: Unlocking In-context Image Editing from Video

ReGuidance: A Simple Diffusion Wrapper for Boosting Sample Quality on Hard Inverse Problems

SpectralAR: Spectral Autoregressive Visual Generation

最近の投稿

最近のコメント

アーカイブ

カテゴリー