月別アーカイブ: 2025年5月

Benchmarking Unified Face Attack Detection via Hierarchical Prompt Tuning

投稿日: 2025年5月20日作成者: jarxiv

要約プレゼンテーション攻撃の検出とフェイスフォーファリー検出は、それぞれ物理メ … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

RoPECraft: Training-Free Motion Transfer with Trajectory-Guided RoPE Optimization on Diffusion Transformers

投稿日: 2025年5月20日作成者: jarxiv

要約 Ropecraftを提案します。Ropecraftは、回転式位置埋め込み（ … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.LG | コメントを受け付けていません

Faster Video Diffusion with Trainable Sparse Attention

投稿日: 2025年5月20日作成者: jarxiv

要約スケーリングビデオ拡散変圧器（DITS）は、ほとんどの注意質量が位置の小さ … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Advancing Generalization Across a Variety of Abstract Visual Reasoning Tasks

投稿日: 2025年5月20日作成者: jarxiv

要約抽象的な視覚推論（AVR）ドメインは、モデルの一般化の研究に専念する類推ベ … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.LG | コメントを受け付けていません

GuidedMorph: Two-Stage Deformable Registration for Breast MRI

投稿日: 2025年5月20日作成者: jarxiv

要約さまざまな時点から乳房MR画像を正確に登録すると、解剖学的構造の整合と腫瘍 … 続きを読む →

カテゴリー: cs.CV, eess.IV | コメントを受け付けていません

FEALLM: Advancing Facial Emotion Analysis in Multimodal Large Language Models with Emotional Synergy and Reasoning

投稿日: 2025年5月20日作成者: jarxiv

要約顔の感情分析（FEA）は、顔のデータに基づいて人の感情状態を推測することを … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

G1: Bootstrapping Perception and Reasoning Abilities of Vision-Language Model via Reinforcement Learning

投稿日: 2025年5月20日作成者: jarxiv

要約ビジョン言語モデル（VLM）は、多くの直接的なマルチモーダルタスクで優れて … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

MM-PRM: Enhancing Multimodal Mathematical Reasoning with Scalable Step-Level Supervision

投稿日: 2025年5月20日作成者: jarxiv

要約マルチモーダルの大手言語モデル（MLLM）は視覚言語の理解において印象的な … 続きを読む →

カテゴリー: cs.AI, cs.CV | コメントを受け付けていません

Understanding Complexity in VideoQA via Visual Program Generation

投稿日: 2025年5月20日作成者: jarxiv

要約ビデオ質問（VideoQA）のクエリの複雑さを分析するためのデータ駆動型の … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Fine-tuning Quantized Neural Networks with Zeroth-order Optimization

投稿日: 2025年5月20日作成者: jarxiv

要約大規模な言語モデルのサイズが指数関数的に成長するにつれて、GPUメモリは、 … 続きを読む →

カテゴリー: cs.CL, cs.CV, cs.LG | コメントを受け付けていません

月別アーカイブ: 2025年5月

Benchmarking Unified Face Attack Detection via Hierarchical Prompt Tuning

RoPECraft: Training-Free Motion Transfer with Trajectory-Guided RoPE Optimization on Diffusion Transformers

Faster Video Diffusion with Trainable Sparse Attention

Advancing Generalization Across a Variety of Abstract Visual Reasoning Tasks

GuidedMorph: Two-Stage Deformable Registration for Breast MRI

FEALLM: Advancing Facial Emotion Analysis in Multimodal Large Language Models with Emotional Synergy and Reasoning

G1: Bootstrapping Perception and Reasoning Abilities of Vision-Language Model via Reinforcement Learning

MM-PRM: Enhancing Multimodal Mathematical Reasoning with Scalable Step-Level Supervision

Understanding Complexity in VideoQA via Visual Program Generation

Fine-tuning Quantized Neural Networks with Zeroth-order Optimization

最近の投稿

最近のコメント

アーカイブ

カテゴリー