-
最近の投稿
- FEAST: A Flexible Mealtime-Assistance System Towards In-the-Wild Personalization
- Time-Optimized Safe Navigation in Unstructured Environments through Learning Based Depth Completion
- Advances in Compliance Detection: Novel Models Using Vision-Based Tactile Sensors
- Mass-Adaptive Admittance Control for Robotic Manipulators
- DreamGen: Unlocking Generalization in Robot Learning through Video World Models
-
最近のコメント
表示できるコメントはありません。 cs.AI (39879) cs.CL (30187) cs.CV (45175) cs.HC (3051) cs.LG (44808) cs.RO (23879) cs.SY (3632) eess.IV (5170) eess.SY (3624) stat.ML (5830)
月別アーカイブ: 2025年3月
FLASHμ: Fast Localizing And Sizing of Holographic Microparticles
要約 回折画像からの微粒子の3D位置とサイズの再構築 – ホログラム … 続きを読む
カテゴリー: cs.AI, cs.CV, cs.LG, physics.ao-ph, physics.optics
FLASHμ: Fast Localizing And Sizing of Holographic Microparticles はコメントを受け付けていません
AugGen: Synthetic Augmentation Can Improve Discriminative Models
要約 機械学習における大規模なデータセットへの依存の増加は、大きなプライバシーと … 続きを読む
カテゴリー: cs.CV
AugGen: Synthetic Augmentation Can Improve Discriminative Models はコメントを受け付けていません
Training Noise Token Pruning
要約 現在の作業では、視覚変圧器のトレーニングノイズトークン(TNT)剪定を提示 … 続きを読む
カテゴリー: cs.CV
Training Noise Token Pruning はコメントを受け付けていません
Similarity-Aware Token Pruning: Your VLM but Faster
要約 視覚変圧器(VITS)およびビジョン言語モデル(VLM)の計算需要は、自己 … 続きを読む
カテゴリー: cs.CV
Similarity-Aware Token Pruning: Your VLM but Faster はコメントを受け付けていません
VERIFY: A Benchmark of Visual Explanation and Reasoning for Investigating Multimodal Reasoning Fidelity
要約 視覚的推論は、人間の認知の中心であり、個人が自分の環境を解釈し、抽象的に理 … 続きを読む
カテゴリー: cs.CV
VERIFY: A Benchmark of Visual Explanation and Reasoning for Investigating Multimodal Reasoning Fidelity はコメントを受け付けていません
Disentangled Object-Centric Image Representation for Robotic Manipulation
要約 ビジョンからロボット操作スキルを学ぶことは、現実世界のシナリオに広く一般化 … 続きを読む
Affinity-VAE: incorporating prior knowledge in representation learning from scientific images
要約 データのコンパクトで解釈可能な表現を学習することは、科学的画像分析における … 続きを読む
Anchors Aweigh! Sail for Optimal Unified Multi-Modal Representations
要約 マルチモーダル学習の統一された表現スペースは、テキスト、画像、オーディオな … 続きを読む
RASA: Replace Anyone, Say Anything — A Training-Free Framework for Audio-Driven and Universal Portrait Video Editing
要約 ポートレートビデオ編集は、オーディオまたはビデオストリームに導かれた、ポー … 続きを読む
SmolDocling: An ultra-compact vision-language model for end-to-end multi-modal document conversion
要約 エンドツーエンドのドキュメント変換をターゲットにした超コンパクトビジョン言 … 続きを読む
カテゴリー: cs.CV
SmolDocling: An ultra-compact vision-language model for end-to-end multi-modal document conversion はコメントを受け付けていません