月別アーカイブ: 2025年2月

Flopping for FLOPs: Leveraging equivariance for computational efficiency

要約 幾何学的不変性をニューラルネットワークに組み込むと、パラメーター効率が向上 … 続きを読む

カテゴリー: cs.CV, cs.LG | Flopping for FLOPs: Leveraging equivariance for computational efficiency はコメントを受け付けていません

VideoRoPE: What Makes for Good Video Rotary Position Embedding?

要約 回転位置の埋め込み(ロープ)とそのバリアントは、長いコンテキスト機能に広く … 続きを読む

カテゴリー: cs.CV | VideoRoPE: What Makes for Good Video Rotary Position Embedding? はコメントを受け付けていません

Fillerbuster: Multi-View Scene Completion for Casual Captures

要約 Fillerbusterを提示します。これは、新しい大規模なマルチビュー潜 … 続きを読む

カテゴリー: cs.CV, cs.GR | Fillerbuster: Multi-View Scene Completion for Casual Captures はコメントを受け付けていません

AuraFusion360: Augmented Unseen Region Alignment for Reference-based 360° Unbounded Scene Inpainting

要約 3次元のシーンの入力は、仮想現実からアーキテクチャの視覚化までのアプリケー … 続きを読む

カテゴリー: cs.CV | AuraFusion360: Augmented Unseen Region Alignment for Reference-based 360° Unbounded Scene Inpainting はコメントを受け付けていません

Long-VITA: Scaling Large Multi-modal Models to 1 Million Tokens with Leading Short-Context Accuray

要約 大規模な視覚言語モデルの長いコンテキスト機能を確立することは、ビデオ理解、 … 続きを読む

カテゴリー: cs.CV | Long-VITA: Scaling Large Multi-modal Models to 1 Million Tokens with Leading Short-Context Accuray はコメントを受け付けていません

QLIP: Text-Aligned Visual Tokenization Unifies Auto-Regressive Multimodal Understanding and Generation

要約 最先端の再構築品質と最先端のゼロショット画像理解を組み合わせた視覚トークン … 続きを読む

カテゴリー: cs.CV | QLIP: Text-Aligned Visual Tokenization Unifies Auto-Regressive Multimodal Understanding and Generation はコメントを受け付けていません

FlashVideo:Flowing Fidelity to Detail for Efficient High-Resolution Video Generation

要約 DIT拡散モデルは、テキストからビデオへの生成で大きな成功を収め、モデル容 … 続きを読む

カテゴリー: cs.CV | FlashVideo:Flowing Fidelity to Detail for Efficient High-Resolution Video Generation はコメントを受け付けていません

Efficient Few-Shot Continual Learning in Vision-Language Models

要約 Vision-Language Models(VLM)は、視覚的な質問応答 … 続きを読む

カテゴリー: cs.AI, cs.CV | Efficient Few-Shot Continual Learning in Vision-Language Models はコメントを受け付けていません

PRISM-TopoMap: Online Topological Mapping with Place Recognition and Scan Matching

要約 マッピングは、モバイルロボットの自律的なナビゲーションを可能にする重要なタ … 続きを読む

カテゴリー: cs.CV, cs.RO, I.2.10 | PRISM-TopoMap: Online Topological Mapping with Place Recognition and Scan Matching はコメントを受け付けていません

Dynamic Rank Adjustment in Diffusion Policies for Efficient and Flexible Training

要約 オフラインの行動クローニングを介して訓練された拡散ポリシーは、最近ロボット … 続きを読む

カテゴリー: cs.RO | Dynamic Rank Adjustment in Diffusion Policies for Efficient and Flexible Training はコメントを受け付けていません