月別アーカイブ: 2025年2月

Flopping for FLOPs: Leveraging equivariance for computational efficiency

投稿日: 2025年2月10日作成者: jarxiv

要約幾何学的不変性をニューラルネットワークに組み込むと、パラメーター効率が向上 … 続きを読む →

カテゴリー: cs.CV, cs.LG | コメントを受け付けていません

VideoRoPE: What Makes for Good Video Rotary Position Embedding?

投稿日: 2025年2月10日作成者: jarxiv

要約回転位置の埋め込み（ロープ）とそのバリアントは、長いコンテキスト機能に広く … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Fillerbuster: Multi-View Scene Completion for Casual Captures

投稿日: 2025年2月10日作成者: jarxiv

要約 Fillerbusterを提示します。これは、新しい大規模なマルチビュー潜 … 続きを読む →

カテゴリー: cs.CV, cs.GR | コメントを受け付けていません

AuraFusion360: Augmented Unseen Region Alignment for Reference-based 360° Unbounded Scene Inpainting

投稿日: 2025年2月10日作成者: jarxiv

要約 3次元のシーンの入力は、仮想現実からアーキテクチャの視覚化までのアプリケー … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Long-VITA: Scaling Large Multi-modal Models to 1 Million Tokens with Leading Short-Context Accuray

投稿日: 2025年2月10日作成者: jarxiv

要約大規模な視覚言語モデルの長いコンテキスト機能を確立することは、ビデオ理解、 … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

QLIP: Text-Aligned Visual Tokenization Unifies Auto-Regressive Multimodal Understanding and Generation

投稿日: 2025年2月10日作成者: jarxiv

要約最先端の再構築品質と最先端のゼロショット画像理解を組み合わせた視覚トークン … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

FlashVideo:Flowing Fidelity to Detail for Efficient High-Resolution Video Generation

投稿日: 2025年2月10日作成者: jarxiv

要約 DIT拡散モデルは、テキストからビデオへの生成で大きな成功を収め、モデル容 … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Efficient Few-Shot Continual Learning in Vision-Language Models

投稿日: 2025年2月10日作成者: jarxiv

要約 Vision-Language Models（VLM）は、視覚的な質問応答 … 続きを読む →

カテゴリー: cs.AI, cs.CV | コメントを受け付けていません

PRISM-TopoMap: Online Topological Mapping with Place Recognition and Scan Matching

投稿日: 2025年2月10日作成者: jarxiv

要約マッピングは、モバイルロボットの自律的なナビゲーションを可能にする重要なタ … 続きを読む →

カテゴリー: cs.CV, cs.RO, I.2.10 | コメントを受け付けていません

Dynamic Rank Adjustment in Diffusion Policies for Efficient and Flexible Training

投稿日: 2025年2月10日作成者: jarxiv

要約オフラインの行動クローニングを介して訓練された拡散ポリシーは、最近ロボット … 続きを読む →

カテゴリー: cs.RO | コメントを受け付けていません

月別アーカイブ: 2025年2月

Flopping for FLOPs: Leveraging equivariance for computational efficiency

VideoRoPE: What Makes for Good Video Rotary Position Embedding?

Fillerbuster: Multi-View Scene Completion for Casual Captures

AuraFusion360: Augmented Unseen Region Alignment for Reference-based 360° Unbounded Scene Inpainting

Long-VITA: Scaling Large Multi-modal Models to 1 Million Tokens with Leading Short-Context Accuray

QLIP: Text-Aligned Visual Tokenization Unifies Auto-Regressive Multimodal Understanding and Generation

FlashVideo:Flowing Fidelity to Detail for Efficient High-Resolution Video Generation

Efficient Few-Shot Continual Learning in Vision-Language Models

PRISM-TopoMap: Online Topological Mapping with Place Recognition and Scan Matching

Dynamic Rank Adjustment in Diffusion Policies for Efficient and Flexible Training

最近の投稿

最近のコメント

アーカイブ

カテゴリー