-
最近の投稿
- FEAST: A Flexible Mealtime-Assistance System Towards In-the-Wild Personalization
- Time-Optimized Safe Navigation in Unstructured Environments through Learning Based Depth Completion
- Advances in Compliance Detection: Novel Models Using Vision-Based Tactile Sensors
- Mass-Adaptive Admittance Control for Robotic Manipulators
- DreamGen: Unlocking Generalization in Robot Learning through Video World Models
-
最近のコメント
表示できるコメントはありません。 cs.AI (39879) cs.CL (30187) cs.CV (45175) cs.HC (3051) cs.LG (44808) cs.RO (23879) cs.SY (3632) eess.IV (5170) eess.SY (3624) stat.ML (5830)
「cs.CV」カテゴリーアーカイブ
RealCraft: Attention Control as A Tool for Zero-Shot Consistent Video Editing
要約 大規模なテキストから画像への生成モデルは、高品質の画像の合成において有望な … 続きを読む
カテゴリー: cs.CV
RealCraft: Attention Control as A Tool for Zero-Shot Consistent Video Editing はコメントを受け付けていません
Integrating Semi-Supervised and Active Learning for Semantic Segmentation
要約 この論文では、手動注釈のコストを削減し、モデルのパフォーマンスを向上させる … 続きを読む
MTGA: Multi-View Temporal Granularity Aligned Aggregation for Event-Based Lip-Reading
要約 リップリーディングは、スピーカーの唇の動きの視覚情報を利用して、単語や文章 … 続きを読む
カテゴリー: cs.CV
MTGA: Multi-View Temporal Granularity Aligned Aggregation for Event-Based Lip-Reading はコメントを受け付けていません
LlavaGuard: An Open VLM-based Framework for Safeguarding Vision Datasets and Models
要約 このペーパーでは、大規模なデータとモデルの時代における信頼できるガードレー … 続きを読む
Accelerating Diffusion Transformer via Error-Optimized Cache
要約 拡散トランス(DIT)は、コンテンツ生成に重要な方法です。 ただし、サンプ … 続きを読む
カテゴリー: cs.CV
Accelerating Diffusion Transformer via Error-Optimized Cache はコメントを受け付けていません
Inference-Time Text-to-Video Alignment with Diffusion Latent Beam Search
要約 テキストからビデオへの拡散モデルの顕著な進歩により、光エリスティックな世代 … 続きを読む
カテゴリー: cs.CV
Inference-Time Text-to-Video Alignment with Diffusion Latent Beam Search はコメントを受け付けていません
ContextFormer: Redefining Efficiency in Semantic Segmentation
要約 セマンティックセグメンテーションは、コンピュータービジョンにおける重要であ … 続きを読む
カテゴリー: cs.CV
ContextFormer: Redefining Efficiency in Semantic Segmentation はコメントを受け付けていません
Are They the Same? Exploring Visual Correspondence Shortcomings of Multimodal LLMs
要約 マルチモーダルモデルの最近の進歩により、視覚的認識、推論能力、視覚言語の理 … 続きを読む
カテゴリー: cs.CV
Are They the Same? Exploring Visual Correspondence Shortcomings of Multimodal LLMs はコメントを受け付けていません
Classifying Deepfakes Using Swin Transformers
要約 ディープフェイクテクノロジーの急増は、デジタルメディアの信頼性と信頼性に大 … 続きを読む
カテゴリー: cs.CV
Classifying Deepfakes Using Swin Transformers はコメントを受け付けていません
Neuro-LIFT: A Neuromorphic, LLM-based Interactive Framework for Autonomous Drone FlighT at the Edge
要約 自律システムへの人間の直感的な相互作用の統合は限られています。 従来の自然 … 続きを読む