月別アーカイブ: 2025年2月

Sparse Autoencoders for Scientifically Rigorous Interpretation of Vision Models

投稿日: 2025年2月11日作成者: jarxiv

要約ビジョンモデルを真に理解するには、学習した機能を解釈するだけでなく、制御さ … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

SAMRefiner: Taming Segment Anything Model for Universal Mask Refinement

投稿日: 2025年2月11日作成者: jarxiv

要約この論文では、広く既存の粗いマスクの品質を向上させる主要な方法を探り、セグ … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Emotion estimation from video footage with LSTM

投稿日: 2025年2月11日作成者: jarxiv

要約一般的な感情の推定は、長い間研究されてきた分野であり、機械学習を使用してい … 続きを読む →

カテゴリー: (Primary), 68T40, cs.CV, cs.LG, cs.RO, I.2.9 | コメントを受け付けていません

History-Guided Video Diffusion

投稿日: 2025年2月11日作成者: jarxiv

要約分類器フリーガイダンス（CFG）は、拡散モデルの条件付き生成を改善するため … 続きを読む →

カテゴリー: cs.CV, cs.LG | コメントを受け付けていません

Grounding Text-to-Image Diffusion Models for Controlled High-Quality Image Generation

投稿日: 2025年2月11日作成者: jarxiv

要約テキストからイメージ（T2I）生成拡散モデルは、テキストキャプションから多 … 続きを読む →

カテゴリー: cs.AI, cs.CV | コメントを受け付けていません

Guided and Variance-Corrected Fusion with One-shot Style Alignment for Large-Content Image Generation

投稿日: 2025年2月11日作成者: jarxiv

要約小さな拡散モデルを使用して大きな画像を生成すると、大規模なモデルのトレーニ … 続きを読む →

カテゴリー: cs.AI, cs.CV | コメントを受け付けていません

KARST: Multi-Kernel Kronecker Adaptation with Re-Scaling Transmission for Visual Classification

投稿日: 2025年2月11日作成者: jarxiv

要約特定のタスクの事前訓練を受けたビジョンモデルを微調整することは、コンピュー … 続きを読む →

カテゴリー: cs.AI, cs.CV | コメントを受け付けていません

Lumina-Video: Efficient and Flexible Video Generation with Multi-scale Next-DiT

投稿日: 2025年2月11日作成者: jarxiv

要約最近の進歩により、生成モデリングの支配的なフレームワークとして拡散変圧器（ … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Visual Agentic AI for Spatial Reasoning with a Dynamic API

投稿日: 2025年2月11日作成者: jarxiv

要約視覚的な推論 – 視覚世界を解釈する能力 – は、 … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

EVEv2: Improved Baselines for Encoder-Free Vision-Language Models

投稿日: 2025年2月11日作成者: jarxiv

要約既存のエンコーダーフリーのビジョン言語モデル（VLM）は、エンコーダベース … 続きを読む →

カテゴリー: cs.AI, cs.CV | コメントを受け付けていません

月別アーカイブ: 2025年2月

Sparse Autoencoders for Scientifically Rigorous Interpretation of Vision Models

SAMRefiner: Taming Segment Anything Model for Universal Mask Refinement

Emotion estimation from video footage with LSTM

History-Guided Video Diffusion

Grounding Text-to-Image Diffusion Models for Controlled High-Quality Image Generation

Guided and Variance-Corrected Fusion with One-shot Style Alignment for Large-Content Image Generation

KARST: Multi-Kernel Kronecker Adaptation with Re-Scaling Transmission for Visual Classification

Lumina-Video: Efficient and Flexible Video Generation with Multi-scale Next-DiT

Visual Agentic AI for Spatial Reasoning with a Dynamic API

EVEv2: Improved Baselines for Encoder-Free Vision-Language Models

最近の投稿

最近のコメント

アーカイブ

カテゴリー