-
最近の投稿
- FEAST: A Flexible Mealtime-Assistance System Towards In-the-Wild Personalization
- Time-Optimized Safe Navigation in Unstructured Environments through Learning Based Depth Completion
- Advances in Compliance Detection: Novel Models Using Vision-Based Tactile Sensors
- Mass-Adaptive Admittance Control for Robotic Manipulators
- DreamGen: Unlocking Generalization in Robot Learning through Video World Models
-
最近のコメント
表示できるコメントはありません。 cs.AI (39879) cs.CL (30187) cs.CV (45175) cs.HC (3051) cs.LG (44808) cs.RO (23879) cs.SY (3632) eess.IV (5170) eess.SY (3624) stat.ML (5830)
「cs.CV」カテゴリーアーカイブ
Faster Video Diffusion with Trainable Sparse Attention
要約 スケーリングビデオ拡散変圧器(DITS)は、ほとんどの注意質量が位置の小さ … 続きを読む
カテゴリー: cs.CV
Faster Video Diffusion with Trainable Sparse Attention はコメントを受け付けていません
Advancing Generalization Across a Variety of Abstract Visual Reasoning Tasks
要約 抽象的な視覚推論(AVR)ドメインは、モデルの一般化の研究に専念する類推ベ … 続きを読む
GuidedMorph: Two-Stage Deformable Registration for Breast MRI
要約 さまざまな時点から乳房MR画像を正確に登録すると、解剖学的構造の整合と腫瘍 … 続きを読む
FEALLM: Advancing Facial Emotion Analysis in Multimodal Large Language Models with Emotional Synergy and Reasoning
要約 顔の感情分析(FEA)は、顔のデータに基づいて人の感情状態を推測することを … 続きを読む
カテゴリー: cs.CV
FEALLM: Advancing Facial Emotion Analysis in Multimodal Large Language Models with Emotional Synergy and Reasoning はコメントを受け付けていません
G1: Bootstrapping Perception and Reasoning Abilities of Vision-Language Model via Reinforcement Learning
要約 ビジョン言語モデル(VLM)は、多くの直接的なマルチモーダルタスクで優れて … 続きを読む
カテゴリー: cs.CV
G1: Bootstrapping Perception and Reasoning Abilities of Vision-Language Model via Reinforcement Learning はコメントを受け付けていません
MM-PRM: Enhancing Multimodal Mathematical Reasoning with Scalable Step-Level Supervision
要約 マルチモーダルの大手言語モデル(MLLM)は視覚言語の理解において印象的な … 続きを読む
Understanding Complexity in VideoQA via Visual Program Generation
要約 ビデオ質問(VideoQA)のクエリの複雑さを分析するためのデータ駆動型の … 続きを読む
カテゴリー: cs.CV
Understanding Complexity in VideoQA via Visual Program Generation はコメントを受け付けていません
Fine-tuning Quantized Neural Networks with Zeroth-order Optimization
要約 大規模な言語モデルのサイズが指数関数的に成長するにつれて、GPUメモリは、 … 続きを読む
KinTwin: Imitation Learning with Torque and Muscle Driven Biomechanical Models Enables Precise Replication of Able-Bodied and Impaired Movement from Markerless Motion Capture
要約 高品質の運動分析へのより広範なアクセスは、運動障害のより詳細な特性評価と介 … 続きを読む
カテゴリー: cs.CV
KinTwin: Imitation Learning with Torque and Muscle Driven Biomechanical Models Enables Precise Replication of Able-Bodied and Impaired Movement from Markerless Motion Capture はコメントを受け付けていません
FinePhys: Fine-grained Human Action Generation by Explicitly Incorporating Physical Laws for Effective Skeletal Guidance
要約 ビデオ生成の大幅な進歩にもかかわらず、特に細粒のセマンティクスと複雑な時間 … 続きを読む