-
最近の投稿
- FEAST: A Flexible Mealtime-Assistance System Towards In-the-Wild Personalization
- Time-Optimized Safe Navigation in Unstructured Environments through Learning Based Depth Completion
- Advances in Compliance Detection: Novel Models Using Vision-Based Tactile Sensors
- Mass-Adaptive Admittance Control for Robotic Manipulators
- DreamGen: Unlocking Generalization in Robot Learning through Video World Models
-
最近のコメント
表示できるコメントはありません。 cs.AI (39879) cs.CL (30187) cs.CV (45175) cs.HC (3051) cs.LG (44808) cs.RO (23879) cs.SY (3632) eess.IV (5170) eess.SY (3624) stat.ML (5830)
「cs.AI」カテゴリーアーカイブ
InsTALL: Context-aware Instructional Task Assistance with Multi-modal Large Language Models
要約 生成モデルの能力の向上は、言語を超えたモダリティを活用するマルチモーダル仮 … 続きを読む
CBVLM: Training-free Explainable Concept-based Large Vision Language Models for Medical Image Classification
要約 医療ワークフローにおける深層学習ベースのソリューションの導入を制限する主な … 続きを読む
With Great Backbones Comes Great Adversarial Transferability
要約 マシンビジョンの自己教師あり学習 (SSL) の進歩により、表現の堅牢性と … 続きを読む
Regressor-Guided Image Editing Regulates Emotional Response to Reduce Online Engagement
要約 感情は、ユーザーのコンテンツ消費とオンライン エンゲージメントとの関係を仲 … 続きを読む
RALAD: Bridging the Real-to-Sim Domain Gap in Autonomous Driving with Retrieval-Augmented Learning
要約 堅牢な自動運転システムを追求する中で、現実世界のデータセットでトレーニング … 続きを読む
UI-TARS: Pioneering Automated GUI Interaction with Native Agents
要約 このペーパーでは、スクリーンショットを入力としてのみ認識し、人間のような対 … 続きを読む
DARB-Splatting: Generalizing Splatting with Decaying Anisotropic Radial Basis Functions
要約 スプラッティング ベースの 3D 再構成手法は、3D ガウス スプラッティ … 続きを読む
Video Depth Anything: Consistent Depth Estimation for Super-Long Videos
要約 Depth Anything は、強力な一般化能力により、単眼の深度推定に … 続きを読む
MMVU: Measuring Expert-Level Multi-Discipline Video Understanding
要約 ビデオ理解における基礎モデルを評価するための、専門家レベルの包括的な複数分 … 続きを読む
Learning segmentation from point trajectories
要約 私たちは、他の形式の監視ではなく、動きに基づいてビデオ内のオブジェクトをセ … 続きを読む