-
最近の投稿
- FEAST: A Flexible Mealtime-Assistance System Towards In-the-Wild Personalization
- Time-Optimized Safe Navigation in Unstructured Environments through Learning Based Depth Completion
- Advances in Compliance Detection: Novel Models Using Vision-Based Tactile Sensors
- Mass-Adaptive Admittance Control for Robotic Manipulators
- DreamGen: Unlocking Generalization in Robot Learning through Video World Models
-
最近のコメント
表示できるコメントはありません。 cs.AI (39879) cs.CL (30187) cs.CV (45175) cs.HC (3051) cs.LG (44808) cs.RO (23879) cs.SY (3632) eess.IV (5170) eess.SY (3624) stat.ML (5830)
「cs.AI」カテゴリーアーカイブ
Adaptive High-Frequency Transformer for Diverse Wildlife Re-Identification
要約 Wildlife ReID には、視覚テクノロジーを利用してさまざまなシナ … 続きを読む
Can Your Generative Model Detect Out-of-Distribution Covariate Shift?
要約 分布外 (OOD) の感覚データと共変量分布のシフトの検出は、キャプチャさ … 続きを読む
Comprehensive Performance Evaluation of YOLO11, YOLOv10, YOLOv9 and YOLOv8 on Detecting and Counting Fruitlet in Complex Orchard Environments
要約 この研究では、商業果樹園における緑色の果物の検出のために、YOLOv8、Y … 続きを読む
VHELM: A Holistic Evaluation of Vision Language Models
要約 視覚言語モデル (VLM) を評価するための現在のベンチマークは、多くの場 … 続きを読む
Thing2Reality: Transforming 2D Content into Conditioned Multiviews and 3D Gaussian Objects for XR Communication
要約 リモートコミュニケーション中、参加者は相互理解を高めるために、製品デザイン … 続きを読む
InstructG2I: Synthesizing Images from Multimodal Attributed Graphs
要約 この論文では、見落とされているが重要なタスク Graph2Image、つま … 続きを読む
Do better language models have crisper vision?
要約 テキストのみの大規模言語モデル (LLM) は、視覚的な世界をどの程度理解 … 続きを読む
MM-Ego: Towards Building Egocentric Multimodal LLMs
要約 この研究は、自己中心的なビデオ理解のためのマルチモーダル基盤モデルの構築を … 続きを読む
When ‘A Helpful Assistant’ Is Not Really Helpful: Personas in System Prompts Do Not Improve Performances of Large Language Models
要約 プロンプトは、人間が大規模言語モデル (LLM) と対話する主な方法として … 続きを読む