-
最近の投稿
- FEAST: A Flexible Mealtime-Assistance System Towards In-the-Wild Personalization
- Time-Optimized Safe Navigation in Unstructured Environments through Learning Based Depth Completion
- Advances in Compliance Detection: Novel Models Using Vision-Based Tactile Sensors
- Mass-Adaptive Admittance Control for Robotic Manipulators
- DreamGen: Unlocking Generalization in Robot Learning through Video World Models
-
最近のコメント
表示できるコメントはありません。 cs.AI (39879) cs.CL (30187) cs.CV (45175) cs.HC (3051) cs.LG (44808) cs.RO (23879) cs.SY (3632) eess.IV (5170) eess.SY (3624) stat.ML (5830)
「cs.AI」カテゴリーアーカイブ
AdPO: Enhancing the Adversarial Robustness of Large Vision-Language Models with Preference Optimization
要約 GPT-4OやLlavaなどの大きなビジョン言語モデル(LVLMS)は、最 … 続きを読む
Dual-stream Transformer-GCN Model with Contextualized Representations Learning for Monocular 3D Human Pose Estimation
要約 このペーパーでは、変圧器GCNデュアルストリームモデルを使用した文脈化され … 続きを読む
Leveraging Embedding Techniques in Multimodal Machine Learning for Mental Illness Assessment
要約 うつ病やPTSDなどの精神障害の世界的な有病率の増加には、客観的でスケーラ … 続きを読む
Implicit Bias Injection Attacks against Text-to-Image Diffusion Models
要約 テキスト間拡散モデル(T2I DMS)の増殖により、日常生活にAIが生成し … 続きを読む
Ross3D: Reconstructive Visual Instruction Tuning with 3D-Awareness
要約 2D画像とビデオ用の大規模なマルチモーダルモデル(LMMS)の急速な開発に … 続きを読む
Cosmos-Reason1: From Physical Common Sense To Embodied Reasoning
要約 物理的なAIシステムは、物理的な世界で複雑な行動を認識し、理解し、実行する … 続きを読む
FineLIP: Extending CLIP’s Reach via Fine-Grained Alignment with Longer Text Inputs
要約 先駆的なビジョン言語モデルとして、Clip(コントラスト言語イメージのプリ … 続きを読む
Equivariant Spherical CNNs for Accurate Fiber Orientation Distribution Estimation in Neonatal Diffusion MRI with Reduced Acquisition Time
要約 拡散磁気共鳴イメージング(DMRI)を使用した脳微細構造の早期かつ正確な評 … 続きを読む
Sim-and-Real Co-Training: A Simple Recipe for Vision-Based Robotic Manipulation
要約 大規模な現実世界のロボットデータセットは、ジェネラリストのロボットモデルを … 続きを読む