-
最近の投稿
- FEAST: A Flexible Mealtime-Assistance System Towards In-the-Wild Personalization
- Time-Optimized Safe Navigation in Unstructured Environments through Learning Based Depth Completion
- Advances in Compliance Detection: Novel Models Using Vision-Based Tactile Sensors
- Mass-Adaptive Admittance Control for Robotic Manipulators
- DreamGen: Unlocking Generalization in Robot Learning through Video World Models
-
最近のコメント
表示できるコメントはありません。 cs.AI (39879) cs.CL (30187) cs.CV (45175) cs.HC (3051) cs.LG (44808) cs.RO (23879) cs.SY (3632) eess.IV (5170) eess.SY (3624) stat.ML (5830)
「cs.CV」カテゴリーアーカイブ
Shape My Moves: Text-Driven Shape-Aware Synthesis of Human Motions
要約 これは、均質化された標準的な体型を学習することが容易なため、既存のテキスト … 続きを読む
カテゴリー: cs.CV
Shape My Moves: Text-Driven Shape-Aware Synthesis of Human Motions はコメントを受け付けていません
Bonsai: Interpretable Tree-Adaptive Grounded Reasoning
要約 汎用的な協調エージェントを開発するためには、(1)新しいドメインに適応でき … 続きを読む
MME-Unify: A Comprehensive Benchmark for Unified Multimodal Understanding and Generation Models
要約 既存のMLLMベンチマークは、Unified MLLM(U-MLLM)の評 … 続きを読む
カテゴリー: cs.CV
MME-Unify: A Comprehensive Benchmark for Unified Multimodal Understanding and Generation Models はコメントを受け付けていません
Audio-visual Controlled Video Diffusion with Masked Selective State Spaces Modeling for Natural Talking Head Generation
要約 トーキングヘッド合成は、バーチャルアバターや人間とコンピュータのインタラク … 続きを読む
カテゴリー: cs.CV
Audio-visual Controlled Video Diffusion with Masked Selective State Spaces Modeling for Natural Talking Head Generation はコメントを受け付けていません
Retrieving Semantics from the Deep: an RAG Solution for Gesture Synthesis
要約 非言語的コミュニケーションは、発話の意味を伝えるのに役立つ意味豊かなジェス … 続きを読む
カテゴリー: cs.CV
Retrieving Semantics from the Deep: an RAG Solution for Gesture Synthesis はコメントを受け付けていません
Rethinking RL Scaling for Vision Language Models: A Transparent, From-Scratch Framework and Comprehensive Evaluation Scheme
要約 強化学習(RL)は、近年、大規模言語モデルの推論能力を向上させる強い可能性 … 続きを読む
VinaBench: Benchmark for Faithful and Consistent Visual Narratives
要約 ビジュアル・ナラティブ生成は、テキスト・ナラティブを、テキストの内容を説明 … 続きを読む
Audio-visual Controlled Video Diffusion with Masked Selective State Spaces Modeling for Natural Talking Head Generation
要約 トーキングヘッド合成は、バーチャルアバターや人間とコンピュータのインタラク … 続きを読む
カテゴリー: cs.CV
Audio-visual Controlled Video Diffusion with Masked Selective State Spaces Modeling for Natural Talking Head Generation はコメントを受け付けていません
MAD: Makeup All-in-One with Cross-Domain Diffusion Model
要約 既存のメイクアップ技術では、異なる入力を処理するために複数のモデルを設計し … 続きを読む
カテゴリー: cs.CV
MAD: Makeup All-in-One with Cross-Domain Diffusion Model はコメントを受け付けていません
Noise Calibration and Spatial-Frequency Interactive Network for STEM Image Enhancement
要約 走査型透過電子顕微鏡(STEM)は、原子配列をサブオングストローム分解能で … 続きを読む
カテゴリー: cs.CV
Noise Calibration and Spatial-Frequency Interactive Network for STEM Image Enhancement はコメントを受け付けていません