-
最近の投稿
- FEAST: A Flexible Mealtime-Assistance System Towards In-the-Wild Personalization
- Time-Optimized Safe Navigation in Unstructured Environments through Learning Based Depth Completion
- Advances in Compliance Detection: Novel Models Using Vision-Based Tactile Sensors
- Mass-Adaptive Admittance Control for Robotic Manipulators
- DreamGen: Unlocking Generalization in Robot Learning through Video World Models
-
最近のコメント
表示できるコメントはありません。 cs.AI (39879) cs.CL (30187) cs.CV (45175) cs.HC (3051) cs.LG (44808) cs.RO (23879) cs.SY (3632) eess.IV (5170) eess.SY (3624) stat.ML (5830)
月別アーカイブ: 2025年2月
Multi-modal Agent Tuning: Building a VLM-Driven Agent for Efficient Tool Usage
要約 大規模言語モデル(LLM)の進歩は、外部ツールを呼び出すためのコントローラ … 続きを読む
Reflective Gaussian Splatting
要約 NeRFや3DGSに基づく手法の性能向上により、新しいビュー合成は大きく進 … 続きを読む
カテゴリー: cs.CV
Reflective Gaussian Splatting はコメントを受け付けていません
GIFT: A Framework for Global Interpretable Faithful Textual Explanations of Vision Classifiers
要約 ディープモデルを理解することは、セーフティクリティカルなアプリケーションに … 続きを読む
カテゴリー: cs.CV
GIFT: A Framework for Global Interpretable Faithful Textual Explanations of Vision Classifiers はコメントを受け付けていません
Prithvi-EO-2.0: A Versatile Multi-Temporal Foundation Model for Earth Observation Applications
要約 本テクニカルレポートでは、Prithvi-EO-2.0を紹介します。Pri … 続きを読む
カテゴリー: cs.CV
Prithvi-EO-2.0: A Versatile Multi-Temporal Foundation Model for Earth Observation Applications はコメントを受け付けていません
Iris: Breaking GUI Complexity with Adaptive Focus and Self-Refining
要約 デジタルエージェントは、ウェブページ、ソフトウェアアプリケーション、オペレ … 続きを読む
A Benchmark and Evaluation for Real-World Out-of-Distribution Detection Using Vision-Language Models
要約 分布外(OOD)検出は、推論中にOODサンプルを検出し、展開されたモデルの … 続きを読む
カテゴリー: cs.CV
A Benchmark and Evaluation for Real-World Out-of-Distribution Detection Using Vision-Language Models はコメントを受け付けていません
ViewpointDepth: A New Dataset for Monocular Depth Estimation Under Viewpoint Shifts
要約 単眼での奥行き推定は、自律走行や他の多くのコンピュータビジョンアプリケーシ … 続きを読む
カテゴリー: cs.CV
ViewpointDepth: A New Dataset for Monocular Depth Estimation Under Viewpoint Shifts はコメントを受け付けていません
The Master Key Filters Hypothesis: Deep Filters Are General
要約 本論文では、畳み込みニューラルネットワーク(CNN)フィルターは、より深い … 続きを読む
SELMA: A Speech-Enabled Language Model for Virtual Assistant Interactions
要約 この研究では、音声とテキストを大規模言語モデル(LLM)への入力として統合 … 続きを読む