-
最近の投稿
- FEAST: A Flexible Mealtime-Assistance System Towards In-the-Wild Personalization
- Time-Optimized Safe Navigation in Unstructured Environments through Learning Based Depth Completion
- Advances in Compliance Detection: Novel Models Using Vision-Based Tactile Sensors
- Mass-Adaptive Admittance Control for Robotic Manipulators
- DreamGen: Unlocking Generalization in Robot Learning through Video World Models
-
最近のコメント
表示できるコメントはありません。 cs.AI (39879) cs.CL (30187) cs.CV (45175) cs.HC (3051) cs.LG (44808) cs.RO (23879) cs.SY (3632) eess.IV (5170) eess.SY (3624) stat.ML (5830)
月別アーカイブ: 2025年5月
Benchmarking Unified Face Attack Detection via Hierarchical Prompt Tuning
要約 プレゼンテーション攻撃の検出とフェイスフォーファリー検出は、それぞれ物理メ … 続きを読む
カテゴリー: cs.CV
Benchmarking Unified Face Attack Detection via Hierarchical Prompt Tuning はコメントを受け付けていません
RoPECraft: Training-Free Motion Transfer with Trajectory-Guided RoPE Optimization on Diffusion Transformers
要約 Ropecraftを提案します。Ropecraftは、回転式位置埋め込み( … 続きを読む
Faster Video Diffusion with Trainable Sparse Attention
要約 スケーリングビデオ拡散変圧器(DITS)は、ほとんどの注意質量が位置の小さ … 続きを読む
カテゴリー: cs.CV
Faster Video Diffusion with Trainable Sparse Attention はコメントを受け付けていません
Advancing Generalization Across a Variety of Abstract Visual Reasoning Tasks
要約 抽象的な視覚推論(AVR)ドメインは、モデルの一般化の研究に専念する類推ベ … 続きを読む
GuidedMorph: Two-Stage Deformable Registration for Breast MRI
要約 さまざまな時点から乳房MR画像を正確に登録すると、解剖学的構造の整合と腫瘍 … 続きを読む
FEALLM: Advancing Facial Emotion Analysis in Multimodal Large Language Models with Emotional Synergy and Reasoning
要約 顔の感情分析(FEA)は、顔のデータに基づいて人の感情状態を推測することを … 続きを読む
カテゴリー: cs.CV
FEALLM: Advancing Facial Emotion Analysis in Multimodal Large Language Models with Emotional Synergy and Reasoning はコメントを受け付けていません
G1: Bootstrapping Perception and Reasoning Abilities of Vision-Language Model via Reinforcement Learning
要約 ビジョン言語モデル(VLM)は、多くの直接的なマルチモーダルタスクで優れて … 続きを読む
カテゴリー: cs.CV
G1: Bootstrapping Perception and Reasoning Abilities of Vision-Language Model via Reinforcement Learning はコメントを受け付けていません
MM-PRM: Enhancing Multimodal Mathematical Reasoning with Scalable Step-Level Supervision
要約 マルチモーダルの大手言語モデル(MLLM)は視覚言語の理解において印象的な … 続きを読む
Understanding Complexity in VideoQA via Visual Program Generation
要約 ビデオ質問(VideoQA)のクエリの複雑さを分析するためのデータ駆動型の … 続きを読む
カテゴリー: cs.CV
Understanding Complexity in VideoQA via Visual Program Generation はコメントを受け付けていません
Fine-tuning Quantized Neural Networks with Zeroth-order Optimization
要約 大規模な言語モデルのサイズが指数関数的に成長するにつれて、GPUメモリは、 … 続きを読む