-
最近の投稿
- FEAST: A Flexible Mealtime-Assistance System Towards In-the-Wild Personalization
- Time-Optimized Safe Navigation in Unstructured Environments through Learning Based Depth Completion
- Advances in Compliance Detection: Novel Models Using Vision-Based Tactile Sensors
- Mass-Adaptive Admittance Control for Robotic Manipulators
- DreamGen: Unlocking Generalization in Robot Learning through Video World Models
-
最近のコメント
表示できるコメントはありません。 cs.AI (39879) cs.CL (30187) cs.CV (45175) cs.HC (3051) cs.LG (44808) cs.RO (23879) cs.SY (3632) eess.IV (5170) eess.SY (3624) stat.ML (5830)
「cs.AI」カテゴリーアーカイブ
HaploOmni: Unified Single Transformer for Multimodal Video Understanding and Generation
要約 言語モデルの進歩に伴い、統一されたマルチモーダル理解と生成は、モデルアーキ … 続きを読む
Deep Learning for Retinal Degeneration Assessment: A Comprehensive Analysis of the MARIO AMD Progression Challenge
要約 MICCAI 2024で開催されたMARIOチャレンジは、光干渉断層計(O … 続きを読む
Smartflow: Enabling Scalable Spatiotemporal Geospatial Research
要約 BlackSkyは、オープンソースのツールやテクノロジーをベースに構築され … 続きを読む
Sparse-vDiT: Unleashing the Power of Sparse Attention to Accelerate Video Diffusion Transformers
要約 拡散変換(DiT)はビデオ生成において画期的な進歩を遂げたが、この長いシー … 続きを読む
SASP: Strip-Aware Spatial Perception for Fine-Grained Bird Image Classification
要約 きめ細かな鳥類画像分類(FBIC)は、生態学的モニタリングや種の同定に大き … 続きを読む
Visual-TCAV: Concept-based Attribution and Saliency Maps for Post-hoc Explainability in Image Classification
要約 近年、畳み込みニューラルネットワーク(CNN)の性能が大幅に向上している。 … 続きを読む
S4-Driver: Scalable Self-Supervised Driving Multimodal Large Language Modelwith Spatio-Temporal Visual Representation
要約 マルチモーダル大規模言語モデル(MLLM)の最新の進歩により、自律走行のた … 続きを読む
DPO Learning with LLMs-Judge Signal for Computer Use Agents
要約 コンピュータ・ユース・エージェント(CUA)は、グラフィカル・ユーザー・イ … 続きを読む
Can’t See the Forest for the Trees: Benchmarking Multimodal Safety Awareness for Multimodal LLMs
要約 マルチモーダル大規模言語モデル(MLLM)は、テキストと画像の両方を介した … 続きを読む
EgoVLM: Policy Optimization for Egocentric Video Understanding
要約 ウェアラブルカメラや自律型エージェントなど、新たな具現化AIアプリケーショ … 続きを読む