-
最近の投稿
- FEAST: A Flexible Mealtime-Assistance System Towards In-the-Wild Personalization
- Time-Optimized Safe Navigation in Unstructured Environments through Learning Based Depth Completion
- Advances in Compliance Detection: Novel Models Using Vision-Based Tactile Sensors
- Mass-Adaptive Admittance Control for Robotic Manipulators
- DreamGen: Unlocking Generalization in Robot Learning through Video World Models
-
最近のコメント
表示できるコメントはありません。 cs.AI (39879) cs.CL (30187) cs.CV (45175) cs.HC (3051) cs.LG (44808) cs.RO (23879) cs.SY (3632) eess.IV (5170) eess.SY (3624) stat.ML (5830)
「cs.AI」カテゴリーアーカイブ
Mapping the Unseen: Unified Promptable Panoptic Mapping with Dynamic Labeling using Foundation Models
要約 ロボット工学とコンピュータビジョンの分野では、複雑な環境を理解し相互作用で … 続きを読む
From Neural Activations to Concepts: A Survey on Explaining Concepts in Neural Networks
要約 本稿では、ニューラルネットワークにおける概念を説明するための最近のアプロー … 続きを読む
Forensic License Plate Recognition with Compression-Informed Transformers
要約 フォレンジックナンバープレート認識(FLPR)は、犯罪捜査のような法的な文 … 続きを読む
Visual Enumeration is Challenging for Large-scale Generative AI
要約 このような技能は、多くの動物種や、言語発達や正式な学校教育を受ける前の乳幼 … 続きを読む
Zero-shot generalization across architectures for visual classification
要約 未知のデータへの汎化はディープネットワークにとって重要な課題であるが、その … 続きを読む
A Simple Interpretable Transformer for Fine-Grained Image Classification and Analysis
要約 我々は、画像分類を解釈可能にするためのトランスフォーマーの新しい使い方を提 … 続きを読む
Improving Interpretation Faithfulness for Vision Transformers
要約 ヴィジョン・トランスフォーマー(ViT)は、様々な視覚タスクにおいて最先端 … 続きを読む
What matters when building vision-language models?
要約 視覚言語モデル(VLM)への関心の高まりは、大規模言語モデルや視覚変換器の … 続きを読む
Vibe-Eval: A hard evaluation suite for measuring progress of multimodal language models
要約 Vibe-Evalは、マルチモーダルチャットモデルを評価するための新しいオ … 続きを読む
A Careful Examination of Large Language Model Performance on Grade School Arithmetic
要約 大規模言語モデル(LLM)は、数学的推論に関する多くのベンチマークで目覚ま … 続きを読む