月別アーカイブ: 2025年2月

Sparse Autoencoders for Scientifically Rigorous Interpretation of Vision Models

要約 ビジョンモデルを真に理解するには、学習した機能を解釈するだけでなく、制御さ … 続きを読む

カテゴリー: cs.CV | Sparse Autoencoders for Scientifically Rigorous Interpretation of Vision Models はコメントを受け付けていません

SAMRefiner: Taming Segment Anything Model for Universal Mask Refinement

要約 この論文では、広く既存の粗いマスクの品質を向上させる主要な方法を探り、セグ … 続きを読む

カテゴリー: cs.CV | SAMRefiner: Taming Segment Anything Model for Universal Mask Refinement はコメントを受け付けていません

Emotion estimation from video footage with LSTM

要約 一般的な感情の推定は、長い間研究されてきた分野であり、機械学習を使用してい … 続きを読む

カテゴリー: (Primary), 68T40, cs.CV, cs.LG, cs.RO, I.2.9 | Emotion estimation from video footage with LSTM はコメントを受け付けていません

History-Guided Video Diffusion

要約 分類器フリーガイダンス(CFG)は、拡散モデルの条件付き生成を改善するため … 続きを読む

カテゴリー: cs.CV, cs.LG | History-Guided Video Diffusion はコメントを受け付けていません

Grounding Text-to-Image Diffusion Models for Controlled High-Quality Image Generation

要約 テキストからイメージ(T2I)生成拡散モデルは、テキストキャプションから多 … 続きを読む

カテゴリー: cs.AI, cs.CV | Grounding Text-to-Image Diffusion Models for Controlled High-Quality Image Generation はコメントを受け付けていません

Guided and Variance-Corrected Fusion with One-shot Style Alignment for Large-Content Image Generation

要約 小さな拡散モデルを使用して大きな画像を生成すると、大規模なモデルのトレーニ … 続きを読む

カテゴリー: cs.AI, cs.CV | Guided and Variance-Corrected Fusion with One-shot Style Alignment for Large-Content Image Generation はコメントを受け付けていません

KARST: Multi-Kernel Kronecker Adaptation with Re-Scaling Transmission for Visual Classification

要約 特定のタスクの事前訓練を受けたビジョンモデルを微調整することは、コンピュー … 続きを読む

カテゴリー: cs.AI, cs.CV | KARST: Multi-Kernel Kronecker Adaptation with Re-Scaling Transmission for Visual Classification はコメントを受け付けていません

Lumina-Video: Efficient and Flexible Video Generation with Multi-scale Next-DiT

要約 最近の進歩により、生成モデリングの支配的なフレームワークとして拡散変圧器( … 続きを読む

カテゴリー: cs.CV | Lumina-Video: Efficient and Flexible Video Generation with Multi-scale Next-DiT はコメントを受け付けていません

Visual Agentic AI for Spatial Reasoning with a Dynamic API

要約 視覚的な推論 – 視覚世界を解釈する能力 – は、 … 続きを読む

カテゴリー: cs.CV | Visual Agentic AI for Spatial Reasoning with a Dynamic API はコメントを受け付けていません

EVEv2: Improved Baselines for Encoder-Free Vision-Language Models

要約 既存のエンコーダーフリーのビジョン言語モデル(VLM)は、エンコーダベース … 続きを読む

カテゴリー: cs.AI, cs.CV | EVEv2: Improved Baselines for Encoder-Free Vision-Language Models はコメントを受け付けていません