-
最近の投稿
- FEAST: A Flexible Mealtime-Assistance System Towards In-the-Wild Personalization
- Time-Optimized Safe Navigation in Unstructured Environments through Learning Based Depth Completion
- Advances in Compliance Detection: Novel Models Using Vision-Based Tactile Sensors
- Mass-Adaptive Admittance Control for Robotic Manipulators
- DreamGen: Unlocking Generalization in Robot Learning through Video World Models
-
最近のコメント
表示できるコメントはありません。 cs.AI (39879) cs.CL (30187) cs.CV (45175) cs.HC (3051) cs.LG (44808) cs.RO (23879) cs.SY (3632) eess.IV (5170) eess.SY (3624) stat.ML (5830)
月別アーカイブ: 2024年3月
Faster Neighborhood Attention: Reducing the O(n^2) Cost of Self Attention at the Threadblock Level
要約 近隣注目は、各トークンの注目範囲をその最も近い隣接トークンに制限することで … 続きを読む
PixArt-Σ: Weak-to-Strong Training of Diffusion Transformer for 4K Text-to-Image Generation
要約 本稿では、4K 解像度の画像を直接生成できる拡散変換モデル (DiT) で … 続きを読む
カテゴリー: cs.CV
PixArt-Σ: Weak-to-Strong Training of Diffusion Transformer for 4K Text-to-Image Generation はコメントを受け付けていません
Learning Zero-Shot Material States Segmentation, by Implanting Natural Image Patterns in Synthetic Data
要約 物質とその状態を視覚的に理解してセグメント化することは、物理世界を理解する … 続きを読む
カテゴリー: cs.CV
Learning Zero-Shot Material States Segmentation, by Implanting Natural Image Patterns in Synthetic Data はコメントを受け付けていません
AUFormer: Vision Transformers are Parameter-Efficient Facial Action Unit Detectors
要約 フェイシャル アクション ユニット (AU) は、感情コンピューティングの … 続きを読む
Delving into the Trajectory Long-tail Distribution for Muti-object Tracking
要約 複数オブジェクト追跡 (MOT) は、コンピュータ ビジョンの重要な領域で … 続きを読む
カテゴリー: cs.CV
Delving into the Trajectory Long-tail Distribution for Muti-object Tracking はコメントを受け付けていません
ObjectCompose: Evaluating Resilience of Vision-Based Models on Object-to-Background Compositional Changes
要約 最近のビジョンベースのモデルの大規模なマルチモーダル トレーニングとその汎 … 続きを読む
Learning Abstract Visual Reasoning via Task Decomposition: A Case Study in Raven Progressive Matrices
要約 抽象的な推論の実行を学習するには、多くの場合、問題のタスクを中間のサブ目標 … 続きを読む
Masked Capsule Autoencoders
要約 私たちは、自己教師ありの方法で事前トレーニングを利用する最初のカプセル ネ … 続きを読む
カテゴリー: cs.CV
Masked Capsule Autoencoders はコメントを受け付けていません
VeCLIP: Improving CLIP Training via Visual-enriched Captions
要約 Web クロールされた大規模なデータセットは、CLIP などの視覚言語モデ … 続きを読む
How Far Are We from Intelligent Visual Deductive Reasoning?
要約 GPT-4V などの視覚言語モデル (VLM) は、最近、多様な視覚言語タ … 続きを読む