-
最近の投稿
- FEAST: A Flexible Mealtime-Assistance System Towards In-the-Wild Personalization
- Time-Optimized Safe Navigation in Unstructured Environments through Learning Based Depth Completion
- Advances in Compliance Detection: Novel Models Using Vision-Based Tactile Sensors
- Mass-Adaptive Admittance Control for Robotic Manipulators
- DreamGen: Unlocking Generalization in Robot Learning through Video World Models
-
最近のコメント
表示できるコメントはありません。 cs.AI (39879) cs.CL (30187) cs.CV (45175) cs.HC (3051) cs.LG (44808) cs.RO (23879) cs.SY (3632) eess.IV (5170) eess.SY (3624) stat.ML (5830)
月別アーカイブ: 2025年2月
Flopping for FLOPs: Leveraging equivariance for computational efficiency
要約 幾何学的不変性をニューラルネットワークに組み込むと、パラメーター効率が向上 … 続きを読む
VideoRoPE: What Makes for Good Video Rotary Position Embedding?
要約 回転位置の埋め込み(ロープ)とそのバリアントは、長いコンテキスト機能に広く … 続きを読む
カテゴリー: cs.CV
VideoRoPE: What Makes for Good Video Rotary Position Embedding? はコメントを受け付けていません
Fillerbuster: Multi-View Scene Completion for Casual Captures
要約 Fillerbusterを提示します。これは、新しい大規模なマルチビュー潜 … 続きを読む
AuraFusion360: Augmented Unseen Region Alignment for Reference-based 360° Unbounded Scene Inpainting
要約 3次元のシーンの入力は、仮想現実からアーキテクチャの視覚化までのアプリケー … 続きを読む
カテゴリー: cs.CV
AuraFusion360: Augmented Unseen Region Alignment for Reference-based 360° Unbounded Scene Inpainting はコメントを受け付けていません
Long-VITA: Scaling Large Multi-modal Models to 1 Million Tokens with Leading Short-Context Accuray
要約 大規模な視覚言語モデルの長いコンテキスト機能を確立することは、ビデオ理解、 … 続きを読む
カテゴリー: cs.CV
Long-VITA: Scaling Large Multi-modal Models to 1 Million Tokens with Leading Short-Context Accuray はコメントを受け付けていません
QLIP: Text-Aligned Visual Tokenization Unifies Auto-Regressive Multimodal Understanding and Generation
要約 最先端の再構築品質と最先端のゼロショット画像理解を組み合わせた視覚トークン … 続きを読む
カテゴリー: cs.CV
QLIP: Text-Aligned Visual Tokenization Unifies Auto-Regressive Multimodal Understanding and Generation はコメントを受け付けていません
FlashVideo:Flowing Fidelity to Detail for Efficient High-Resolution Video Generation
要約 DIT拡散モデルは、テキストからビデオへの生成で大きな成功を収め、モデル容 … 続きを読む
カテゴリー: cs.CV
FlashVideo:Flowing Fidelity to Detail for Efficient High-Resolution Video Generation はコメントを受け付けていません
Efficient Few-Shot Continual Learning in Vision-Language Models
要約 Vision-Language Models(VLM)は、視覚的な質問応答 … 続きを読む
PRISM-TopoMap: Online Topological Mapping with Place Recognition and Scan Matching
要約 マッピングは、モバイルロボットの自律的なナビゲーションを可能にする重要なタ … 続きを読む
Dynamic Rank Adjustment in Diffusion Policies for Efficient and Flexible Training
要約 オフラインの行動クローニングを介して訓練された拡散ポリシーは、最近ロボット … 続きを読む
カテゴリー: cs.RO
Dynamic Rank Adjustment in Diffusion Policies for Efficient and Flexible Training はコメントを受け付けていません