-
最近の投稿
- FEAST: A Flexible Mealtime-Assistance System Towards In-the-Wild Personalization
- Time-Optimized Safe Navigation in Unstructured Environments through Learning Based Depth Completion
- Advances in Compliance Detection: Novel Models Using Vision-Based Tactile Sensors
- Mass-Adaptive Admittance Control for Robotic Manipulators
- DreamGen: Unlocking Generalization in Robot Learning through Video World Models
-
最近のコメント
表示できるコメントはありません。 cs.AI (39879) cs.CL (30187) cs.CV (45175) cs.HC (3051) cs.LG (44808) cs.RO (23879) cs.SY (3632) eess.IV (5170) eess.SY (3624) stat.ML (5830)
「cs.CV」カテゴリーアーカイブ
Neural Inverse Rendering from Propagating Light
要約 伝播光のマルチビューポイントビデオから物理的に基づいた神経逆レンダリングの … 続きを読む
カテゴリー: cs.CV
Neural Inverse Rendering from Propagating Light はコメントを受け付けていません
SparseMM: Head Sparsity Emerges from Visual Concept Responses in MLLMs
要約 マルチモーダル大手言語モデル(MLLM)は、視覚機能を備えた事前に訓練され … 続きを読む
カテゴリー: cs.CV
SparseMM: Head Sparsity Emerges from Visual Concept Responses in MLLMs はコメントを受け付けていません
FreeTimeGS: Free Gaussians at Anytime and Anywhere for Dynamic Scene Reconstruction
要約 このペーパーでは、複雑な動きで動的な3Dシーンを再構築するという課題に取り … 続きを読む
カテゴリー: cs.CV
FreeTimeGS: Free Gaussians at Anytime and Anywhere for Dynamic Scene Reconstruction はコメントを受け付けていません
Contrastive Flow Matching
要約 無条件のフローマッチング列車拡散モデルは、サンプルペア間のフローが一意であ … 続きを読む
カテゴリー: cs.CV
Contrastive Flow Matching はコメントを受け付けていません
VideoMathQA: Benchmarking Mathematical Reasoning via Multimodal Understanding in Videos
要約 現実世界のビデオ設定での数学的推論は、静的な画像やテキストよりも根本的に異 … 続きを読む
カテゴリー: cs.CV
VideoMathQA: Benchmarking Mathematical Reasoning via Multimodal Understanding in Videos はコメントを受け付けていません
UniWorld-V1: High-Resolution Semantic Encoders for Unified Visual Understanding and Generation
要約 既存の統一モデルは、ビジョン言語の理解とテキストからイメージの生成において … 続きを読む
FullDiT2: Efficient In-Context Conditioning for Video Diffusion Transformers
要約 ビデオ拡散変圧器の細かく効率的な制御可能性は、適用可能性に対する増大する欲 … 続きを読む
カテゴリー: cs.CV
FullDiT2: Efficient In-Context Conditioning for Video Diffusion Transformers はコメントを受け付けていません
SplArt: Articulation Estimation and Part-Level Reconstruction with 3D Gaussian Splatting
要約 毎日の環境で一般的な明確なオブジェクトの再構築は、拡張/仮想現実とロボット … 続きを読む
Zero-Shot Temporal Interaction Localization for Egocentric Videos
要約 ビデオ内のヒューマンオブジェクト相互作用(HOI)アクションを見つけること … 続きを読む
Diffusion-VLA: Generalizable and Interpretable Robot Foundation Model via Self-Generated Reasoning
要約 この論文では、自己網性モデルと視覚運動ポリシーを学習するための拡散モデルを … 続きを読む