-
最近の投稿
- FEAST: A Flexible Mealtime-Assistance System Towards In-the-Wild Personalization
- Time-Optimized Safe Navigation in Unstructured Environments through Learning Based Depth Completion
- Advances in Compliance Detection: Novel Models Using Vision-Based Tactile Sensors
- Mass-Adaptive Admittance Control for Robotic Manipulators
- DreamGen: Unlocking Generalization in Robot Learning through Video World Models
-
最近のコメント
表示できるコメントはありません。 cs.AI (39879) cs.CL (30187) cs.CV (45175) cs.HC (3051) cs.LG (44808) cs.RO (23879) cs.SY (3632) eess.IV (5170) eess.SY (3624) stat.ML (5830)
「cs.CV」カテゴリーアーカイブ
TikZero: Zero-Shot Text-Guided Graphics Program Synthesis
要約 生成AIの増加に伴い、テキストキャプションからの合成図は説得力のあるアプリ … 続きを読む
Dita: Scaling Diffusion Transformer for Generalist Vision-Language-Action Policy
要約 多様なロボットデータセットでトレーニングされた最近のビジョン言語アクション … 続きを読む
Alzheimer’s Disease Classification Using Retinal OCT: TransnetOCT and Swin Transformer Models
要約 網膜の光コヒーレンス断層撮影(OCT)画像は、有病率が上昇している神経変性 … 続きを読む
HiTVideo: Hierarchical Tokenizers for Enhancing Text-to-Video Generation with Autoregressive Large Language Models
要約 テキストからビデオへの生成は、動画データの固有の複雑さにより、重大な課題を … 続きを読む
Exploring Typographic Visual Prompts Injection Threats in Cross-Modality Generation Models
要約 現在のクロスモダリティ生成モデル(GMS)は、さまざまな生成タスクで顕著な … 続きを読む
AdaptGCD: Multi-Expert Adapter Tuning for Generalized Category Discovery
要約 密接な世界の仮定によって制約されている従来の半教師の学習パラダイムとは異な … 続きを読む
FLASHμ: Fast Localizing And Sizing of Holographic Microparticles
要約 回折画像からの微粒子の3D位置とサイズの再構築 – ホログラム … 続きを読む
カテゴリー: cs.AI, cs.CV, cs.LG, physics.ao-ph, physics.optics
FLASHμ: Fast Localizing And Sizing of Holographic Microparticles はコメントを受け付けていません
AugGen: Synthetic Augmentation Can Improve Discriminative Models
要約 機械学習における大規模なデータセットへの依存の増加は、大きなプライバシーと … 続きを読む
カテゴリー: cs.CV
AugGen: Synthetic Augmentation Can Improve Discriminative Models はコメントを受け付けていません
Training Noise Token Pruning
要約 現在の作業では、視覚変圧器のトレーニングノイズトークン(TNT)剪定を提示 … 続きを読む
カテゴリー: cs.CV
Training Noise Token Pruning はコメントを受け付けていません
Similarity-Aware Token Pruning: Your VLM but Faster
要約 視覚変圧器(VITS)およびビジョン言語モデル(VLM)の計算需要は、自己 … 続きを読む
カテゴリー: cs.CV
Similarity-Aware Token Pruning: Your VLM but Faster はコメントを受け付けていません