-
最近の投稿
- FEAST: A Flexible Mealtime-Assistance System Towards In-the-Wild Personalization
- Time-Optimized Safe Navigation in Unstructured Environments through Learning Based Depth Completion
- Advances in Compliance Detection: Novel Models Using Vision-Based Tactile Sensors
- Mass-Adaptive Admittance Control for Robotic Manipulators
- DreamGen: Unlocking Generalization in Robot Learning through Video World Models
-
最近のコメント
表示できるコメントはありません。 cs.AI (39879) cs.CL (30187) cs.CV (45175) cs.HC (3051) cs.LG (44808) cs.RO (23879) cs.SY (3632) eess.IV (5170) eess.SY (3624) stat.ML (5830)
「cs.AI」カテゴリーアーカイブ
Look, Compare, Decide: Alleviating Hallucination in Large Vision-Language Models via Multi-View Multi-Path Reasoning
要約 最近、Large Vision-Language Model (LVLM) … 続きを読む
Abstracted Gaussian Prototypes for One-Shot Concept Learning
要約 オムニグロット チャレンジからインスピレーションを得たワンショット学習に基 … 続きを読む
VisionTS: Visual Masked Autoencoders Are Free-Lunch Zero-Shot Time Series Forecasters
要約 基礎モデルは、時系列予測 (TSF) における有望なアプローチとして浮上し … 続きを読む
UrBench: A Comprehensive Benchmark for Evaluating Large Multimodal Models in Multi-View Urban Scenarios
要約 大規模マルチモーダル モデル (LMM) の最近の評価では、さまざまな領域 … 続きを読む
CaFNet: A Confidence-Driven Framework for Radar Camera Depth Estimation
要約 深度推定は、自動運転において 3D シーンを正確に解釈するために重要です。 … 続きを読む
Investigating Neuron Ablation in Attention Heads: The Case for Peak Activation Centering
要約 変圧器ベースのモデルの使用は社会全体で急速に増加しています。 この成長に伴 … 続きを読む
A Permuted Autoregressive Approach to Word-Level Recognition for Urdu Digital Text
要約 この研究論文では、デジタル ウルドゥー語テキスト向けに特別に設計された新し … 続きを読む
Open-vocabulary Temporal Action Localization using VLMs
要約 ビデオ アクションのローカリゼーションは、長いビデオから特定のアクションの … 続きを読む
Frankenstein: Generating Semantic-Compositional 3D Scenes in One Tri-Plane
要約 私たちは、シングル パスでセマンティック構成の 3D シーンを生成できる拡 … 続きを読む
Bridging Episodes and Semantics: A Novel Framework for Long-Form Video Understanding
要約 既存の研究では、長い形式のビデオを拡張された短いビデオとして扱うことがよく … 続きを読む