cs.CV」カテゴリーアーカイブ

Faster Video Diffusion with Trainable Sparse Attention

要約 スケーリングビデオ拡散変圧器(DITS)は、ほとんどの注意質量が位置の小さ … 続きを読む

カテゴリー: cs.CV | Faster Video Diffusion with Trainable Sparse Attention はコメントを受け付けていません

Advancing Generalization Across a Variety of Abstract Visual Reasoning Tasks

要約 抽象的な視覚推論(AVR)ドメインは、モデルの一般化の研究に専念する類推ベ … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.LG | Advancing Generalization Across a Variety of Abstract Visual Reasoning Tasks はコメントを受け付けていません

GuidedMorph: Two-Stage Deformable Registration for Breast MRI

要約 さまざまな時点から乳房MR画像を正確に登録すると、解剖学的構造の整合と腫瘍 … 続きを読む

カテゴリー: cs.CV, eess.IV | GuidedMorph: Two-Stage Deformable Registration for Breast MRI はコメントを受け付けていません

FEALLM: Advancing Facial Emotion Analysis in Multimodal Large Language Models with Emotional Synergy and Reasoning

要約 顔の感情分析(FEA)は、顔のデータに基づいて人の感情状態を推測することを … 続きを読む

カテゴリー: cs.CV | FEALLM: Advancing Facial Emotion Analysis in Multimodal Large Language Models with Emotional Synergy and Reasoning はコメントを受け付けていません

G1: Bootstrapping Perception and Reasoning Abilities of Vision-Language Model via Reinforcement Learning

要約 ビジョン言語モデル(VLM)は、多くの直接的なマルチモーダルタスクで優れて … 続きを読む

カテゴリー: cs.CV | G1: Bootstrapping Perception and Reasoning Abilities of Vision-Language Model via Reinforcement Learning はコメントを受け付けていません

MM-PRM: Enhancing Multimodal Mathematical Reasoning with Scalable Step-Level Supervision

要約 マルチモーダルの大手言語モデル(MLLM)は視覚言語の理解において印象的な … 続きを読む

カテゴリー: cs.AI, cs.CV | MM-PRM: Enhancing Multimodal Mathematical Reasoning with Scalable Step-Level Supervision はコメントを受け付けていません

Understanding Complexity in VideoQA via Visual Program Generation

要約 ビデオ質問(VideoQA)のクエリの複雑さを分析するためのデータ駆動型の … 続きを読む

カテゴリー: cs.CV | Understanding Complexity in VideoQA via Visual Program Generation はコメントを受け付けていません

Fine-tuning Quantized Neural Networks with Zeroth-order Optimization

要約 大規模な言語モデルのサイズが指数関数的に成長するにつれて、GPUメモリは、 … 続きを読む

カテゴリー: cs.CL, cs.CV, cs.LG | Fine-tuning Quantized Neural Networks with Zeroth-order Optimization はコメントを受け付けていません

KinTwin: Imitation Learning with Torque and Muscle Driven Biomechanical Models Enables Precise Replication of Able-Bodied and Impaired Movement from Markerless Motion Capture

要約 高品質の運動分析へのより広範なアクセスは、運動障害のより詳細な特性評価と介 … 続きを読む

カテゴリー: cs.CV | KinTwin: Imitation Learning with Torque and Muscle Driven Biomechanical Models Enables Precise Replication of Able-Bodied and Impaired Movement from Markerless Motion Capture はコメントを受け付けていません

FinePhys: Fine-grained Human Action Generation by Explicitly Incorporating Physical Laws for Effective Skeletal Guidance

要約 ビデオ生成の大幅な進歩にもかかわらず、特に細粒のセマンティクスと複雑な時間 … 続きを読む

カテゴリー: cs.AI, cs.CV | FinePhys: Fine-grained Human Action Generation by Explicitly Incorporating Physical Laws for Effective Skeletal Guidance はコメントを受け付けていません